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“本 书 就 像 是 一 封 写 给 Python、R、 地 图 和 数据 的 情书 。” 
一 一 FlowingData 读 者 评论 


“我 是 Nathan Yan 的 博客 FlowingData 的 忠实 粉丝 ， 本 书 还 没 出 来 我 就 预订 了 。 果 
然 y 它 完全 符合 我 的 预期 ; 各 种 各 样 的 分 析 、 数据 资源 和 绝对 精美 的 图 表 。 
一 一 亚马逊 读者 评论 


“本 书写 得 很 好 ， 思 路 清晰 ， 实 例 丰 富 ， 如 果 你 经 常 与 数据 打交道 ， 选 择 本 书 错 不 


一 一 亚马逊 读者 评论 


在 生活 中 ， 数 据 几 乎 无 处 不 在 ， 任 我 们 取 用 。 然 而 ， 同 样 的 数据 给 人 的 感觉 可 能 会 
干 差 万 别 : 或 冰冷 枯燥 ， 让 人 望 而 生 昊 、 百 思 不 解 其 意 ; 或 生动 有 趣 ， 让 人 一 目 了 然 、 
座 然 开朗 。 为 了 达到 后 一 种 效果 ， 我 们 需要 采用 一 种 特别 的 方式 来 展示 数据 ， 来 解释 、 
分 析 和 应 用 它 。 这 就 是 数据 可 视 化 技术 。 


Nathan Yau 是 这 一 创新 领域 的 先锋 。 在 本 书 中 ， 他 根据 数据 可 视 化 的 工作 流程 ， 先 
后 介绍 了 如 何 获取 数 据 ， 将 数据 格式 化 ， 用 可 视 化 工具 ( 如 R ) 生成 图 表 ， 以 及 在 图 形 
编辑 软件 ( 如 Illustrator ) 中 修改 以 使 图 表达 到 最 佳 效果 。 本 书 介绍 了 数 十 种 方法 ( 如 柱 
形 图 、 饼 图 、 折 线 图 和 散 点 图 等 ) ， 以 创造 性 的 视觉 方式 生动 讲述 了 有 关 数 据 的 故事 。 
翻 开 本 书 ， 思 维 之 门 会 詹 然 大 开 ， 你 会 发 现 有 那么 多 的 手段 去 赋予 数据 全 新 的 意义 ! 


本 书 主要 内 容 包括 : 

令 学 习 如 何 用 视觉 化 表示 方式 来 呈现 数据 ， 让 读者 看 到 不 一 样 的 信息 ; 
令 发 现 数据 背后 的 故事 ; 

令 探索 不 同 的 数据 来 源 ， 确 定 有 效 的 展示 格式 ; 

令 试验 并 对 比 不 同 的 可 视 化 工具 ; 

令 寻找 数据 中 的 趋势 和 模式 ， 并 以 适当 的 图 表 来 展现 它们 ; 

仿 设 定 明 确 的 目标 ， 并 用 其 指引 你 的 可 视 化 过 程 。 
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内 容 提 要 
本 书 古 一 本 系统 介绍 数据 可 视 化 的 图 书 。 书 中 主要 阐述 了 如 何 将 冰冷 枯燥 的 数据 转换 成 易于 理解 、 生 
动 有 趣 、 主 题 清 晰 的 图 表 。 作 者 根据 数据 可 视 化 的 一 般 顺 序 ， 先 后 介绍 了 如 何 获 取 数 据 ， 将 数据 格式 化 ， 
然后 用 可 视 化 工具 “如 R) 生成 图 表 ， 最 后 在 图 形 处 理 软件 (如 Illustrator〉 中 修改 完善 ， 使 图 表达 到 最 佳 
的 可 视 化 效 末 。 本 书 详细 介绍 了 柱 形 图 、 饼 图 、 折 线 图 和 散 氮 图 等 图 表 的 绘制 方法 及 各 目的 优 和 缺点， 还 用 
专门 的 一 草 介 绍 与 地 图 相关 的 数据 可 视 化 技巧 。 
本 书 实例 丰富、 图 文 并 席 ， 甫 合 数 据 分 析 师 、 视 党 设计 师 和 对 数据 感 兴趣 的 开发 人 员 学 习 提 高 。 

















图 灵 程 序 设计 丛书 
鲜 活 的 数据 : 数据 可 视 化 指南 
4 若 [ 美 ] Nathan Yau 
详 回 怡 宁 


责任 编辑 朱 多 
执行 编辑 ” 罗 词 亮 
儿 人 民 邮 电 出 版 社 出 版 发 行 。” ”北京 市 崇文 区 夕照 寺 街 14 号 
邮编 ”100061 电子 邮件 ”315@ptpress.com.cn 
网 址 ”http://www.ptpress.com.cn 
北京 印刷 
人 开本 : 800X1000 1/16 
印张 : 18.5 ” 彩 插 16 
字数 : 437 千 字 2012 年 9 月 第 1 版 
印 数 : 1-4000 册 2012 年 9 月 北京 第 1 次 印刷 
著作 权 合 同 登记 号 ”图 字 : 01-2012-3283 号 
ISBN 978-7-115-29381-7 





定价 : 69.00 元 
读者 服务 热线 (010)51095186 转 604” 印 装 质量 热线 : (010)67129223 
反 盗 版 热线 : (010)67171154 


版 权 声 明 


Original edition, entitled Visualize This: The FlowingData Guide to Design, Visualization, and 
Statistics, by Nathan Yau, ISBN 978-0-470-94488-2, published by John Wiley & Sons, Inc. 

Copyright © 2011 by John Wiley & Sons, Inc. All rights reserved. This translation published under 
License. 

Simplified Chinese translation edition published by POSTS & TELECOM PRESS Copyright ©2012. 


Copies of this book sold without a Wiley sticker on the cover are unauthorized and illegal. 





本 书简 体 中 文 版 由 John Wiley & Sons, Inc. 授 权 人 民 邮 电 出 版 社 独 家 出 版 。 
本 书 封 底 贴 有 John Wiley & Sons, Inc. 激 光 防 伪 标 签 ， 无 标签 者 不 得 销售 。 
版 权 所 有 ， 侵 权 必 完 。 





ll 


5| 


数据 不 是 什么 新 鲜 玩 意 。 早 在 儿 个 世纪 之 前 ， 人 们 就 开始 对 数据 进行 量化 分 析 并 为 之 绘制 表 
格 了 。 然 而 在 为 FlowingData (我 创建 的 一 个 有 关 设 计 、 可 视 化 和 统计 的 网 站 ) 写作 时 ， 我 发 觉 
这 一 领域 在 过 去 数 年 间 出 现 了 爆炸 式 的 发 展 , 而 且 未 来 还 会 更 加 选 勃 。 科 技 的 进步 使 得 收集 和 存 
依 数 据 变 得 轻而易举 ， 而 互联 网 则 让 我 们 摆脱 了 时 间 和 空间 的 束缚 。 如 果 运 用 得 当 , 这 种 数据 的 
“财富 ”能 够 提供 丰富 的 信息 ， 帮 助人 们 更 明智 地 制定 决策 、 更 清楚 地 传达 理 食 ， 而 且 能 让 我 们 
以 更 为 客观 的 角度 去 审视 目 己 对 世界 和 上 月 吴 的 看 法 。 

随 肴 2009 年 年 中 Data.gov 网 站 的 上 线 ， 美 国政 府 数据 公 开化 进程 发 生 了 一 次 重大 转变 。 这 是 

- 套 综 合 的 数据 目录 系统 ， 由 各 级 联邦 政府 机 构 提供 ， 表 现 出 各 组 织 及 官方 的 透明 度 和 责任 感 。 
比如 说 , 国民 有 权利 了 解 政府 把 税收 收入 都 花 在 了 哪里 ， 而 在 此 之 前 美国 政府 给 人 的 感觉 就 像 一 
个 黑箱 。Data.gov 上 的 很 多 数据 其 实在 许多 网 站 中 都 能 找到 ， 但 现在 它们 都 被 会 聚 在 一 起 ， 而 且 
有 着 统一 的 格式 ， 更 加 便于 人 们 进行 分 析 和 可 视 化 。 除 了 Data.gov 之 外 ， 联 合 国 也 有 类 似 的 网 站 
UNdata， 英 国 很 快 也 发 布 了 Data.govuk， 而 像 纽 约 、 旧 金山 和 伦敦 等 全 球 许多 城市 也 都 参与 到 了 
数据 公开 这 一 潮流 中 来 。 

如 今 的 网 站 也 变 得 越 来 越 开 放 ， 有 数 千 个 API (应 用 编程 接口 ) 在 茎 励 和 “外 量 ”大 开 发 人 
员 去 调用 网 站 已 有 的 数据 做 各 种 事情 。 比 如 Twitter 和 Flickr 就 提供 了 覆盖 面 极 广 的 APL， 开 发 人 员 
可 以 目 由 定制 与 网 站 本 和 刁 完全 不 同 、 五 花 八 门 的 用 户 界面 。API 编 日 网 站 ProgrammableWeb 目 前 
已 收录 超过 2000 个 AP 。 诸 如 Infochimps 和 Factual 这 样 的 应 用 最 近 也 大 量 涌现 出 来 ， 它 们 存在 的 
目的 就 是 同人 们 提供 结构 化 的 数据 。 

在 个 人 层面 ， 我 们 可 以 在 Facebook 上 结交 朋友 ， 在 Foursquare 上 分 至 所 在 的 位 置 ， 或 者 在 
Twitter 上 发 布 目 己 的 最 新 动态 ， 这 所 有 的 一 切 都 只 需要 点 击 几 次 女 标 或 者 敲 击 几 下 键盘 就 能 实 
现 。 一些 针对 性 更 强 的 应 用 则 方便 我 们 记录 品尝 过 什么 美食 、 体 重 几 何 、 情 绪 高 低 等 林林总总 的 
事情 。 几 乎 可 以 这 样 说 ,只 要 你 想 对 自己 的 某 个 方面 进行 追踪 ,就 会 有 这 样 一 蒜 应 用 来 帮助 你 实 
现 愿 户 。 

数据 惑 静 静 地 竺 在 我 们 生活 的 每 一 个 角落 。 园 子 里 已 经 采 实 累累 ,， 正 等 待 厦 我 们 去 采摘 。 对 
大 多 数 人 来 说 ,真正 有 意思 的 并 不 是 数据 本 里， 而 是 数据 背后 缠 涵 的 信息 。 人 们 都 希望 知道 他 们 
的 数据 有 何 意义 ， 而 如 果 你 能 帮助 他 们 ， 那 么 你 就 会 大 受 欢 迎 。 难 怪 Google 首 席 经 济 学 家 Hal 



















































































J 截至 2012 年 5 月 底 ， 该 网 站 已 收录 6100 多 个 API。 一 一 译 者 注 〈 如 无 特殊 说 明 ， 下 文中 所 有 脚注 均 为 译 者 注 ) 
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Varian 会 说 统计 学 家 将 是 未 来 十 年 内 最 迷人 的 职业 ， 而 这 绝 不 仅仅 是 因为 统计 学 家 长 得 好 看 〈 尽 
管 以 极 客 们 的 别 样 眼光 来 看 ， 我 们 确实 长 得 让 人 和 贫 心 悦目 ) 


可 视 化 


要 想 探索 和 理解 那些 大 型 的 数据 集 ， 可 视 化 是 最 有 效 的 途径 之 一 。 把 数字 置 于 视觉 空间 中 ， 
我 们 的 大 脑 或 者 读者 的 大 脑 就 会 更 容易 发 现 其 中 潜藏 的 模式 。 人 类 对 图 形 的 理解 能 力 确 实 很 强 ， 
往往 能 够 从 中 发 现 一 些 通 过 常规 统计 方法 很 难 挖掘 到 的 信息 。 

John Tukey 是 我 最 喜爱 的 统计 学 家 ， 也 是 探索 性 数据 分 析 理 论 〈Exploratory Data Analysis ) 
的 缔造 者 。 他 精通 各 种 统计 方法 和 工具 ， 而 且 深 信和 图 形 技术 在 其 中 亦 占 有 一 席 之 地 。 他 坚信 ， 图 
形 的 呈现 方式 会 让 人 们 得 到 许多 出 乎 意料 的 结 采 。 只 需 对 数据 进行 可 视 化 , 我 们 就 能 从 中 发 现 大 
量 信息 ， 而 且 很 多 情况 下 这 也 是 我 们 制定 明智 决策 或 描述 复杂 事件 所 瑚 要 的 唯一 手段 。 

比如 说 ,在 2009 年 美国 的 失业 率 遭 遇 了 一 次 大 幅 增长 .2007 年 的 全 美 平均 失业 率 是 4.6% ,2008 
年 上 涨 到 了 5.8%。 而 到 了 2009 年 9 月 ， 突 然 就 答 升 至 9.8%。 但 是 这 些 全 国平 均 数字 只 的 未 了 事件 
的 一 部 分 , 它们 只 是 概括 了 整个 国家 的 总 体 状 况 。 有 哪些 地 区 的 失业 率 高 于 其 他 地 区 ? 又 有 哪些 
地 区 并 未 受到 很 大 波及 ? 我 们 无 法 从 中 获得 答案 。 

图 0-1 用 一 系列 美国 地 图 更 为 完整 地 说 明了 情况 ， 而 且 我 们 只 需 略 扫 一 眼 台 能 回答 上 面 的 问 
题 。 颜 色 较 深 的 县 失业 率 相 对 较 局 ， 而 颜色 较 浅 的 县 失业 率 较 低 。 在 2009 年 的 地 网 上 (网 0-2 )， 
我 们 可 以 看 到 美国 西部 和 东部 大 多 数 地 区 的 失业 率 都 超过 了 10%， 而 中 西部 地 区 则 未 受到 太 大 
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2004 一 2009 年 9 月 的 美国 失业 率 





图 0-1 ”2004 一 2009 年 美国 失业 率 分 布 图 


如 琳 手 上 只 有 单纯 的 电子 表格 ,要 想 找 到 其 中 纺 涵 的 地 区 性 或 周期 性 的 模式 就 会 很 花 时 间 ， 
而 只 匪 前 面 那些 全 国平 均 数字 则 完全 不 可 能 。 而 用 地 图 呈现 之 后 , 虽然 增加 了 许多 县 的 数据 , 但 
读者 的 理解 程度 反而 提高 了 。 这 些 地 图 有 可 能 帮助 当局 决定 往 哪 些 地 区 划拨 救济 金 或 提供 其 他 形 
式 的 援助 。 




















图 0-2 ”2009 年 失业 率 分 布 图 





这 个 例子 的 绝妙 之 处 在 于 , 用 于 产生 地 图 的 数据 都 是 免费 的 , 由 美国 务工 统计 局 百 接 面 问 公 
众 开 放 。 尽 管 找 到 这 些 数据 并 不 是 那么 轻 而 多 举 , 但 它们 确实 就 在 某 个 地 方 听 候 我 们 的 差 址 ， 而 
上 且 还 有 更 多 格式 化 的 数据 正 等 待 厦 我 们 作 更 好 的 视觉 处 理 。 

比如 说 ,《 美 国 统计 摘要 》( The Statistical Abstract of the United States ) “就 含有 数 百 个 数据 表 
格 ( 见 图 0-3 )， 但 没有 任何 图 表 。 这 人 简直 是 天 赐 的 恨 机 ， 我 们 可 以 在 此 基础 上 进行 加 工 ， 展 现 整 
个 国家 的 概貌 。 这 个 过 程 将 会 非常 有 趣 。 不 久 前 我 用 图 形 描绘 了 其 中 的 部 分 表格 〈 见 
图 0-4 )， 很 快 就 得 到 了 美国 近年 来 结婚 率 及 离婚 紊 、 邮 政 资 费 、 用 电量 等 信息 的 直观 变化 情况 。 
单纯 的 表格 形式 很 难 阅 谈 ,， 旋 者 只 能 得 到 一 些 去 散 的 数值 ， 而 在 图 表 化 视图 中 ,人 们 能 够 轻 多 地 
发 现 变 化 的 趋势 和 模式 ， 而 且 一 眼 就 能 作出 比较 。 




















QD《 美 国 统 计 摘要 》 由 美国 商务 部 人 口 普 查 局 整理 发 布 ， 是 美国 社会 、 政 治 和 经 济 机 构 的 标准 统计 摘要 。 -篇 都 
提供 文字 说 明 并 在 表格 下 方 注 明 出 处 。 自 1878 年 首次 出 版 以 来 ， 每 年 出 版 一 次 。 因 经 费 问 题 ， 在 2012 年 出 版 最 后 
一 期 (第 131 期 ) 后 该 刊 即 停刊 。 一 一 编者 注 
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表 126: 1990 一 2007 年 各 州 结婚 、 离 婚 数字 及 比率 


[2,443.5 represents 2,443.500. By place of eccurence. See Appendix 1 


State Number Rate per 1. Number Rate per 1,090 
(1,000) population (1,000) population 


1990 2000 2007 1990 2000 2007| 1990 2000 2007 1990 2000 
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NA Not available. ' Data are counts of marriages perlormed, except as Noted. 2 Based on total poRulation residing im area: 
Ropulation enumaerated as of April 1 (for 1990 and 2000; estimated as of July 1 for all other years. includes annulmenits. 
U.S. total for the Nnumber of divorces is an estimate Which includes states not reporting. Beginning 2000, divorce rates based 
solely on the combined counts and populations for reporting states and the District of Columbia. The collection of detailed data of 
mamages and divorces was suspended in January 1996. Some figures [or marriages are marriage licenses issued. 


Source: U.S. National Center for Health Statistics, National Vital Statistics Reports {NVSR), Births, Marnages, Divorces, and 
Deaths: Provisional Data for 2007. Vol. 56, No. 21, July 14, 2008 and prior reports. 





图 0-3 美国 统计 摘要 网 站 中 的 表格 
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全 国 性 数据 随 记 
英国 人 大口 统计 局 不 入 前 刚 发 布 了 他 们 2008 年 的 统计 摘要 ， 邢 围 涵盖 艺术 、 
教育 、 选 举 、 通 信 以 及 其 他 各 领域 。[ 洲 下 是 其 中 的 部 分 数据 。 


1960 一 2005 年 间 的 用 电量 1995 一 2006 年 间 的 邮政 资费 
40 (〈 亿 千瓦 时 ) 


2000 一 2005 年 间 难 以 维持 温饱 的 家 庭 数 


| 
(位 学 员 ) 2000 EPECON 
2001 志 I0 
2002 EE 
2003 iE 
2004 ER 
2005 EN 
16~30 30~40 41~50 51~65 6 


年 龄 分 布 ( 岁 ) 


1960 一 2006 年 间 的 结婚 率 及 离婚 率 1990 一 2005 年 间 科 学 与 工程 学 博士 生 中 
女性 所 占 百分比 


12 (0) 50 (%) 


9 40 
结婚 率 
30 
离婚 率 
1960 2006 2005 


Source: U.S. Census Bureau FLOWINGDATA 





图 0-4 ”美国 统计 摘要 网 站 数据 的 图 表 化 视图 
类 似 《 纽 约 时 报 六 《华盛顿 邮 报 》 这 样 的 新 闻 机 构 很 擅长 让 数据 变 得 棚 棚 如 生 、 史 于 理解 。 
它们 对 已 有 数据 的 利用 也 许 是 最 充分 的 , 因为 经 第 会 有 相关 主题 的 新 闻 故 事 见 诸 报 问 。 有 时 故事 
中 还 会 插入 数据 图 表 以 强调 不 同 的 观点 ， 而 有 时 只 需要 图 表 就 能 讲述 整个 故事 。 
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在 传统 媒体 癌 网 络 媒 体 转 型 的 过 程 中 , 图 形 的 应 用 变 得 更 加 普及 。 如 今 的 新 闻 机 构 中 都 已 设 
立 了 专门 处 理 交 互 、 图 表 或 地 图 数据 的 各 种 部 门 ， 比 如 《纽约 时 报 》 束 专门 为 “计算 机 辅助 报道 ” 
成 立 了 一 个 新 闻 编 辑 部 ,旗下 的 记者 都 专注 于 用 数据 来 报道 新 闻 。 而 《纽约 时 报 》 的 图 形 编辑 音 
处 理 起 大 量 数 据 来 也 同样 得 心 应 手 。 

即使 是 在 流行 文化 领域 ,可视化 也 占据 了 自己 的 一 席 之 地 。Stamen Design 是 一 家 以 在 线 交 互 
闻名 的 可 视 化 公司 ,他 们 在 过 去 数 年 中 一 直 都 在 对 每 年 的 MTV 音 乐 录影 市 大 奖 颁 奖 时 期 的 Twitter 
状态 进行 追踪 。Stamen Design 每 一 次 的 设计 都 与 之 前 有 所 不 同 , 但 其 核心 一 直 保 持 不 变 : 实时 展 
现 人 们 在 Twitter 上 的 热门 话题 。2009 年 Kanye West 在 Taylor Swift 发 表 获 奖 感 言 时 突然 暴走 ”"， 我 
们 通过 Stamen Design 的 追踪 可 以 很 容易 地 了 人 解 人 们 对 他 这 种 行径 的 看 法 。 

现在 看 来 ， 我 们 发 现 这 个 领域 中 也 有 偏重 情绪 而 非 分 析 的 一 面 ， 对 可 视 化 的 定义 开始 变 得 
模糊 起 来 。 在 很 长 一 段 时 间 内 人 们 都 认为 ， 可 视 化 就 是 关于 量化 后 的 事实 : 我 们 把 它们 作为 工 
具 来 识别 事物 发 展 的 模式 ， 转 而 为 分 析 人 研究 提供 帮助 。 但 可 视 化 并 不 仪 仪 与 冰冷 的 事实 有 关 。 
就 如 同 Stamen Design 的 追踪 设计 一 样 ， 它 有 着 很 强 的 娱乐 因素 ， 为 观众 提供 了 另 一 种 方式 去 关 
注 颁奖 典礼 ， 并 在 过 程 中 与 其 他 粉丝 进行 互动 。Jonathan Harris 的 设计 也 是 一 个 很 好 的 例子 。 在 
他 的 We Feel Fine (我 们 感觉 良好 ) “和 Whale Hunt ( 捕 鲜 )“ 等 作品 中 ，Harris 并 不 是 出 于 分 析 
角度 ， 而 是 围绕 春 故事 本 身 来 进行 设计 ， 而 且 这 些 故事 以 人 类 情感 为 中 心 ， 超 越 了 单纯 的 数字 
和 分 析 行 为 。 

图 表 和 图 形 逐 渐 也 超出 了 工具 的 范畴 ， 发 展 为 传达 理念 的 载体 。GraphJam 和 Indexed 之 类 的 
网 站 “就 喜欢 运用 文 氏 图 ”、 饼 图 等 形式 来 戏 庄 流行 歌曲 及 文化 ,用 红 白 黑 等 颜色 组 合 来 训 讽 政客 ， 
或 者 遗 责 眶 待 动物 的 行为 。 我 目 己 也 在 这 个 方 回 上 作 了 一 些 党 试 ， 在 FlowingData 上 发 表 了 系列 
漫画 Data Underload ( 数据 低 负荷 )。 在 图 0-5 中 ， 我 用 图 形 表现 了 美国 电影 协会 评选 出 的 一 些 经 
典 电影 台词 非常 无 厘 头 ， 但 很 有 趣 ( 至 少 对 我 来 说 如 此 )。” 



























































也 访问 http://datafl.ws/underload， 欣 党 FlowingData 网 站 上 的 更 多 Data Underload 漫 画 。 














Q) Kanye West 是 美国 黑人 说 唱歌 手 , 他 在 2009 年 的 MTV 音 乐 录像 带 颁 奖 典 礼 上 冲 上 台 打 汤 了 当 届 最 佳 录 影 带 大奖 得 
主 Taylor 的 获奖 感言 ， 并 声称 该 奖项 应 属于 Beyonce。 

@) 作品 见 http:Wwww.wefeelfine.org/。 本 书 第 1 章 有 详细 介绍 。 

@) 作品 见 http:Wthewhalehunt.org/。 设 计 师 将 在 一 次 为 期 7 天 的 捕 钱 行动 中 所 拍摄 的 大 量 照片 用 可 视 化 方式 进行 排列 。 
读者 可 以 选择 马赛 元 、 时 间 线 或 轮 辐 等 浏览 模式 。 

由 这 两 个 网 站 可 以 被 归 类 于 “每 日 一 漫画 ”类 型 的 网 站 ， 只 不 过 通常 以 简单 的 图 表 形 式 来 展现 笑料 。 

(9) 文 开 图 ( Venn diagram ) 是 一 种 常见 的 用 于 表示 集合 或 类 的 粗略 草图 。 例 如 用 圆圈 A 和 圆圈 8 分别 代 表 两 个 集合 ， 
那么 两 个 圆圈 交 舍 的 区 域 就 是 集合 4 与 集合 B 的 交集 。 

(© 原 图 内 并 未 给 出 相关 台词 的 原文 ， 考虑 到 国内 读者 可 能 不 太 熟 悉 出 处 ， 特 在 图 中 添加 。 
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我 所 
在 乎 的 
雪 
交集 


“坦白 说 ， 亲 爱 的 ， 我 一 点 也 不 在 乎 。 
一 一 白 瑞 德 ，《 乱 世 佳 人 》，1939 


无 法 拒绝 了 


“我 会 给 他 点 好 处 ， 他 无 法 拒绝 。” 


E 
下 


这 是 我 再 也 回 不 到 这 里 了 


不 是 我 
社会 任何 有 
地 位 


Fe 大 游民 
竞争 者 


“你 根本 不 能 明白 ! 我 本 可 以 获得 社会 地 
位 ， 我 本 可 以 是 个 竞争 者 ， 我 本 可 以 是 任 
何 有 头 有 脸 的 人 而 不 是 一 个 毫 无 价值 的 游民 ! ” 
一 一 特 里 < 马 洛 伊 ， 


“ 托 托 


， 我 感觉 我 们 再 也 回 不 到 堪 萨 
六 了 


一 一 桃 乐 丝 ，《 绿 野 仙 踪 》，1939 


《码头 风云 》 ，1954 


事态 发 展 我 的 心理 状态 


-要 


还 算 高 


替 我 完成 
这 一 部 分 


ww. 


SS 


“就 看 你 的 了 ， 孩子 。 ” 
_ 里 克 ' 布 来 恩 ,《 卡 萨 布 兰 卡 》，1942 


“来 吧 ， 让 我 也 高 兴 高 兴 。 2 
一 一 哈 利 .卡拉 汗 ,《 拨 云 见 日 》, 1983 


特写 镜头 所 需 最 小 值 


时 间 


“好 了 ， 德 米 勒 先生 ， 我 已 经 准备 好 拍 
摄 我 的 特写 镜头 了 。” 
一 一 诺 玛 . 德 思 蒙 德 ， 
1950 


“ 愿 原 力 与 你 同 在 。” 
一 一 韩 索 洛 ,《 星 球 大 战 4: 新 的 希望 》， 


《日 落 大 道 》， 1977 


Source: American Film Institute | FlowingData, http://flowingdata.com 
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图 0-5 ”图 表 形 式 的 电影 台词 
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那么 , 到 底 什么 是 可 视 化 呢 ? 每 个 人 都 有 自己 的 答案 。 有 些 人 认为 只 有 严格 意义 上 的 传统 图 
形 图 表 才 是 可 视 化 。 而 为 一 些 人 的 观点 则 更 加 开放 ， 他们 认为 只 要 是 在 表现 数据 , 不管 是 数据 亏 
术 品 还 是 微软 Excel 表 格 ， 必 可 以 算是 可 视 化 。 我 个 人 较为 倾 回 于 后 者 ， 但 有 时 也 发 现 日 已 站 在 
前 一 阵 萌 。 毕 竟 ， 这 一 问题 上 执 是 讨 非 并 不 是 那么 重要 ， 只 要 能 达成 我 们 的 目的 就 行 了 。 

不 管 可 视 化 是 什么 , 我 们 绘制 演示 用 的 图 例 也 好 、 进 行 数据 分 析 也 好 、 用 数据 来 报道 新 闻 也 
办 ,最终 其 实 孝 是 在 寻求 真相 。 在 某 些 时 候 , 统计 也 会 产生 错 误 的 假象 ,但 造成 错觉 的 并 不 是 数 
字 本 号 ， 而 是 运用 数字 的 人 。 有 时 候 这 是 有 意 为 之 ,但 更 多 情况 下 是 芯 包 大 意 所 致 。 如 采 我 们 不 
知道 如 何 创建 合适 的 图 形 ， 或 者 不 知道 如 何 客 观 地 看 竺 数据 , 那么 就 会 产生 诬 误 。 但 只 要 我 们 掌 
握 了 适当 的 可 视 化 拉 巧 和 处理 方式 ， 就 能 更 加 自信 地 陈述 观点 ， 并 且 对 目 己 的 发 现 感觉 民 好。 


学 习 数 据 


我 在 大 学 一 年 级 时 开始 接触 统计 学 ， 当 时 它 是 一 门 必修 的 基础 诬 , 但 与 我 的 专业 电气 工程 并 
没有 太 大 关系 。 讲课 的 教授 热情 极 高 ， 而 且 对 这 一 领域 乐此不疲 。 他 上 课时 喜欢 在 教室 的 台阶 上 
来 回 走 动 ,身体 语言 极为 丰富 ， 而 且 不 时 或 励 吴 边 的 学 生 参 与 讨论 。 我 从 未 遇 到 过 如 此 兴奋 的 老 
师 , 而 且 坚 无 疑问 , 正 是 这 种 精神 吸引 我 进入 了 数据 领域 , 最 终 在 四 年 后 考 上 了 统计 学 的 人 研究生。 

在 本 科 四 年 中 ,统计 学 就 是 数据 分 析 、 频 率 分 布 和 假设 检验 ， 而 我 一 二 乐 在 其 中 。 我 觉得 观 
察 数据 集 ， 探索 其 中 的 趋势 、 模 式 和 关联 性 很 有 意思 。 但 开始 人 研究 生 学 业 之后， 我 的 观点 发 生 了 
改变 ， 事 情 变 得 更 加 有 趣 了 。 

统计 和 学 不 再 是 假设 检验 ( 结果 表明 ， 在 许多 情况 下 它 并 无 太 大 作用 ) 以 及 寻找 模式 了。 哦 ， 
不 ,我 收回 这 和 铝 话 。 统 计 学 仍然 与 这 些 有 关 , 但 我 对 它 产 生 了 不 一 样 的 感受 。 统计 学 其 实 是 在 用 
数据 讲 故 事 。 我 们 手头 的 大 堆 数 据 反 映 了 真实 的 世界 ,然后 我 们 对 它们 进行 分 析 ， 得 到 的 不 只 是 
数据 的 关联 性 , 我 们 还 能 了 解 到 里 边 正在 发 生 什么 。 这 些 故 事 反 过 来 可 以 帮助 我 们 解决 真实 世界 
中 存在 的 问题 , 例如 降低 犯罪 率 、 提 高 卫生 意识 、 改 善 高 速 上 的 交通 状况 , 或 者 只 是 增长 我 们 的 
见识 。 

很 多 人 部 未 能 找到 数据 与 真实 生活 之 间 的 联系 ,我 想 这 也 是 为 什么 当 我 告诉 人 们 我 恋人 研 是 为 
了 学 统计 学 时 ， 大 多 数 人 都 说 那 是 他 们 “上 学 时 最 痛恨 的 一 门 诗 ”。 我 相信 读者 们 不 会 犯 同样 的 
错误 ， 和 否则 你 就 不 会 选择 谈 这 本 书 卫 ， 不 是 吗 ? 

运用 数据 需要 一 些 技能 ,如 何 才 能 掌握 呢 ?” 你 可 以 像 我 一 样 去 学 校 选择 正规 的 课程 训练 , 但 
你 也 可 以 通过 大 量 的 实践 经 验 ， 目 学 成 才 。 其 实 大 多 数 俩 完 生 诛 程 和 目 学 也 没有 多 大 区 别 。 

在 可 视 化 和 信息 图 (infographics ) 方面 也 是 如 此 。 并 不 是 只 有 专业 图 形 设计 师 才能 创建 优秀 
的 图 表 , 同样 ,你 也 不 需要 拿 到 统计 等 的 博士 学 位 。 你 所 需要 的 只 是 保持 对 学 习 的 淘 望 ,而 且 和 
生活 中 的 所 有 事情 一 样 ， 你 需要 不 断 练 习 才 能 变 得 更 在 行 。 

我 制作 的 第 一 张 数 据 图 大 概 是 在 小 学 四 年 级 , 那 是 为 了 应 付 一 次 课外 科学 人 研究。 我 和 搭档 一 
直 很 想 知道 蜗牛 在 什么 样 的 平面 上 会 朴 得 更 快 ， 于 是 把 它们 放 在 各 种 粗糙 或 光滑 的 物体 表面 上 ， 
并 计时 观察 它们 候 过 一 段 特定 距离 各 党 要 多 久 。 最 后 我 拿 到 了 蜗牛 在 不 同 表 面 上 扑 行 的 时 间 数 
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据 ,， 并 据 此 制作 了 一 张 柱 形 图 。 至 于 当时 是 否 知道 应 该 将 它们 按 长 短 进 行 排序 , 我 已 经 记 不 太 清 
了 ,但 是 和 Excel 软 件 的 辛苦 纠缠 倒是 一 直 刻 骨 铭 心 。 不 过 第 二 年 当 我 们 研究 赤 拟 谷 盗 " 最 喜欢 吃 
哪 种 合 制 品 时 ， 作 图 就 是 小 亲 一 碟 了 。 当 你 理 顺 某 球 软件 的 基本 功能 和 操作 方式 之 后 , 镜 下 的 几 
平 都 轻而易举。 这 个 例子 完美 地 说 明了 什么 叫做 从 经 验 中 学 习 。 响 ,顺便 提 一 句 ， 如 采 你 还 在 琢 
磨 前 面 的 问题 , 答案 是 蜗牛 在 玻璃 上 的 得 最 快 , 而 炙 拟 谷 盗 最 言 欢 吃 箱 衔 果 仁 麦 片 ( Grape Nut )。 

从 本 质 上 来 说 ,学习 任何 软件 或 编程 语言 的 过 程 几乎 都 是 一 样 的 ,如 果 你 一 行 代码 都 没 瑟 过 ， 
那么 R( 许多 统计 学 家 都 采用 的 一 种 计算 环境 ) 必然 会 让 你 望 而 生 戎 ， 而 一 旦 你 跟着 完成 了 几 个 
汇 例 之 后 ， 就 会 很 快 找 到 寄 门 。 这 本 书 能 够 帮助 你 做 到 这 些 。 

之 所 以 这 样 说 , 是 因为 我 本 人 就 是 这 样 学 习 的 。 我 还 记得 目 己 第 一 次 深入 接触 可 视 化 的 设计 
层面 时 的 情形 。 那 还 是 我 读 人 研究 生 的 第 二 年 ， 好 消息 从 天 而 降 ， 我 得 知 目 己 获 得 了 《纽约 时 报 》 
图 形 编辑 的 实习 机 会 。 在 那 一 刻 之 前 ， 图表 对 我 而 言 只 是 一 种 分 析 工 具 而 已 ( 比如 小 学 诛 外 活动 
时 作 的 柱 形 图 )， 就 算 其 中 含有 一 些 美学 和 设计 因素 ， 比 重 也 少 得 可 怜 。 而 将 数据 用 于 新 闻 报 道 ， 
这 对 我 来 说 更 是 无 从 人 手 。 

所 以 为 了 作 准 备 , 我 阅读 了 手边 能 找到 的 所 有 设计 书籍 ， 以 及 一 本 Adobe Ilustrator 的 使 用 指 
南 ， 因 为 我 知道 《纽约 时 报 》 图 形 编辑 部 用 的 就 是 这 球 软 件 。 不 过 还 没 等 我 真正 上 手 就 已 经 开始 
绘制 工作 了 。 当 你 被 迫 边 学 边 干 的 时 候 ， 就 不 得 不 尽快 掌握 那些 必需 的 知识 ， 而 当 你 开始 处 理 更 
多 数据 、 设 计 更 多 图 表 时 ， 你 的 技能 也 会 随 之 突飞猛进 。 


如 何 阅 读本 书 


本 书 以 实例 讲解 为 主 ， 目 的 是 让 大 家 熟悉 制图 所 需 的 每 一 个 步骤 ,掌握 每 一 项 技能 。 你 可 以 
从 头 开 始 完整 地 旋 一 届 ， 不 过 如 条 你 已 经 有 想法 在 酝酿 了 了 ， 也 可 以 只 挑选 最 感 兴趣 的 几 章 来 谈 。 
所 有 的 划 广 都 经 过 了 精心 的 组 织 ， 采 例 是 相互 独立 的 。 如 果 读 者 对 数据 领域 还 比较 卫生， 那么 阅 
读 最 开始 的 几 章 应 该 会 很 有 带 助 。 它 们 介绍 了 处 理 数 据 的 方法 、 需 要 关注 的 重点 以 及 各 种 可 用 的 
工具 , 便于 读者 了 解 如 何 获 得 数据 ， 如 何 规 范 格式 并 为 可 视 化 作 准 备 。 之 后 的 几 章 会 根据 不 同 的 
数据 类 型 和 侧重 面 分 别 介绍 各 种 可 视 化 技巧 。 请 记 住 ， 永 远 都 要 让 数据 说 话 。 

不 管 你 选择 何 种 阅读 方式 , 我 都 强烈 建议 你 在 阅读 时 打开 电脑 ， 和 我 一 起 逐步 完成 每 一 个 范 
例 ， 并 且 浏 览 在 注释 和 参考 中 提 到 的 各 种 资源 。 你 也 可 以 在 www.wiley.com/visualizethis 或 
http://book.flowingdata.com” 上 下 载 到 所 有 的 代码 、 数 据 文件 和 可 交互 演示 。 

为 了 表述 得 更 清楚 一 些 ， 图 0-6 给 出 了 一 张 流 程 图 ， 便 于 读者 找到 需要 的 章 方 。 祝 大 家 阅读 
开心 ! 













































































GD 赤 拟 谷 盗 (red flour beetle ) 是 一 种 萌 怒 目 昆 虫 ， 对 农作物 危害 极 大 。 
@) 亦 可 从 图 灵 社 区 ( www. ituring.com.cn ) 本 书 相 关 页 面 下 载 。 一 一 编者 注 
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用 数据 讲 改 事 





让 我 们 先 回想 一 下 过 去 曾 看 到 过 的 那些 数据 可 视 化 作品 一 一 听 演 讲 
时 看 到 的 幻灯 片 、 博 客 文章 的 配 图 以 及 此 刻 在 你 脑海 中 浮现 的 经 典 案 例 。 
它们 的 共同 点 是 什么 ? 它们 都 在 讲 故事 ， 有 趣 的 故事 。 这 些 故事 也 许 是 
为 了 让 你 相信 某 件 事情 ， 或 者 呼吁 你 做 出 某 种 举动 ， 也 可 能 是 通过 新 的 
信息 激发 新 思路 ， 或 者 是 打破 早已 形成 的 先入 之 见 。 不 管 它 们 的 意图 是 
什么 ， 各 种 太 寸 和 形式 的 优秀 数据 可 视 化 作品 都 在 帮助 我 们 理解 数据 青 
后 的 意义 。 


第 1 章 用 数据 讲 故 事 


1.1 不 只 是 数字 


让 我 们 面 对 现 实 一 一 如 果 在 一 开始 我 们 不 知道 自己 想 了 解 什么 ,或 者 不 知道 有 什么 可 以 去 了 
解 ， 那 么 数据 就 是 枯燥 的 。 它 不 过 是 数字 和 文字 的 堆砌 ,除了 冰冷 的 数值 之 外 没有 任何 意义 。 而 
统计 与 可 视 化 的 好 处 台 在 于 能 带 助 我 们 观察 到 更 次 层次 的 东西 。 请 记 住 , 数据 是 现实 生活 的 一 种 
上 映射， 其 中 隐藏 春 许多 故事 ， 在 那 一 堆 堆 的 数字 之 间 存 在 春 实 际 的 意义 、 真 相 和 美和 学。 而且 和 现 
实生 活 一 样 ， 有 些 故事 非 肖 简单 下 接 ,， 有 些 则 顾 为 迁 回 费 解 。 有 些 故 事 只 会 出 现在 教科 书 里 ,而 
其 他 一 些 则 体裁 新 奇 。 讲 故事 的 方式 完全 取决 于 你 自己 , 不 管 你 的 号 份 是 统计 学 家 、 程 序 员 、 设 
计 师 还 是 数据 研究 者 。 

以 上 就 是 我 作为 一 名 统计 笠 人 研究 生 所 学 到 的 第 一 诛 。 我 必须 夭 认 在 接触 这 门 诛 之 前 , 我 一 二 
认为 统计 学 就 是 一 门 单纯 的 分 析 学 科 ， 而 数据 也 只 不 过 是 一 种 机 械 式 作业 的 产物 而 已 。 的 确 , 在 
很 长 一 段 时 间 内 我 郡 这 么 想 一 一 毕竟 ,作为 一 名 电气 工程 专业 的 大 学 毕业 生 , 用 这 种 眼光 来 看 答 
数据 是 情 有 可 原 的 。 

不 要 误解 我 的 意思 ,有 这 种 看 法 未 必 是 一 件 坏事 。 但 我 在 数 年 后 认识 到 ,数据 虽然 有 很 踢 的 
客观 性 ， 但 其 中 往往 也 存在 着 人 的 因素 。 

比如 说 ， 让 我 们 再 来 看 看 失业 紊 问题。 说 出 一 个 全 国平 均 数字 很 容易 , 但 正如 我 们 所 见 ,不 
同 地 区 对 每 个 人 的 音义 是 不 一 样 的 , 甚至 连 街 区 的 远近 都 会 造成 差异 。 如 有 果 你 认识 的 某 个 人 这 两 
年 一 直 没 有 工作 , 其 实 是 很 难 把 他 视 为 一 个 冷冰冰 的 统计 数字 的 , 不 是 吗 ? 这 些 数字 代表 的 是 活 
生生 的 人 , 所 以 我 们 处 理 数 据 时 必然 会 党 有 感情 因 系 。 当然, 我 们 也 不 可 能 讲述 每 一 个 人 的 故事 ， 
但 在 “失业 这 攀升 5 个 百分点 ”和 “ 数 十 万 人 失业 下 网 ”之 间 还 是 有 看 微妙 但 重要 的 区 别 。 前 者 
读 起 来 只 是 一 个 没有 多 少 上 下 文 背景 的 数字 ， 而 后 者 却 更 能 让 人 产生 共 吗 。 


1.1.1 新闻 报 赴 


在 《纽约 时 报 》 的 图 形 设计 实习 机 会 让 我 感触 趴 次 。 虽 然 那 只 是 我 研 二 署 假期 间 的 短 短 三 个 
月 而 已 , 但 它 影 响 了 我 此 后 处 理 数据 的 方式 。 我 学 会 的 不 仅 是 为 新 闻 绘 制图 表 ， 我 还 学 会 了 如 何 
像 报 志 新 闻 那 样 报 起 数据， 而 这 知 要 更 多 的 精力 去 设计 、 组 织 、 核 查 、 退 踪 和 人 研究 。 

有 一 次 我 的 任务 是 核实 茶 个 数据 集中 的 三 个 数字 ， 因为 《纽约 时 报 》 的 图 形 编辑 部 在 绘制 图 
表 时 ， 必 须 确 保 报道 的 所 有 数据 都 是 准确 无 误 的 。 我 们 只 有 在 确信 所 有 数据 都 可 笔 之 后 , 才 会 去 
考虑 表现 层面 的 问题 。 正 是 这 种 对 细节 的 关注 让 该 报 的 图 表 如 此 优秀 。 

《纽约 时 报 》 的 任何 一 个 图 表 都 是 如 此 。 它 将 数据 表现 得 非 第 清晰 、 简 涪 ， 其 至 可 以 说 是 优 
类 。 这 代表 痢 什 么 呢 ?” 只 有 在 阅读 这 样 的 图 表 时 , 你 才能 理解 数据 的 音义。 重要 的 点 或 区 域 虱 入 
有 注释 , 使 用 的 符号 和 颜色 部 进行 了 详细 的 说 明 ， 而 且 它 能 让 读者 轻松 地 了 解数 据 中 的 信息 。 这 
已 经 不 仅 是 图 形 了 ， 这 人 简 下 是 图 形 的 艺术 。 

图 1-1 束 类 似 于 你 在 《纽约 时 报 》 中 所 看 到 的 那些 图 表 。 它 显示 了 各 年 龄 段 的 人 在 未 来 一 年 
内 和 死亡 的 概率 。 






















































































死亡 概率 
随 着 人 的 年 龄 增长 ， 其 在 未 来 一 年 内 死亡 的 概率 呈 上 升 趋势 。 


男性 和 女性 死亡 的 概率 趋同 


已 证 明 ， 女 性 的 平 - 


均 寿 命 长 于 男性 


美国 人 的 平均 预期 寿命 为 78 


我 本 人 在 一 年 内 死亡 的 概率 为 0.1% 





FLOWINGDATA 


图 1-1 不 同年 龄 段 的 死亡 概率 





这 张 图 表 从 根本 上 来 说 只 是 一 个 折线 图 (line chart ) 而 已 ,但 是 其 中 的 设计 元 素 让 它 显 得 生 











动 : 指针 和 标记 提供 了 上 下 文 环 境 , 便于 读者 理解 这 些 数据 的 有 趣 之 处 ， 而 曲线 的 颜色 和 宽度 则 
将 他 们 的 视线 引导 到 重要 的 地 方 。 


图 表 和 图 形 并 不 只 是 将 统计 结 末 可 视 化 ,它们 还 对 可 视 化 展现 的 内 容 进 行 解 释 。 








说 明 观 沉 Geoff McGhee 的 纪录 片 Journalism in the Age of Data( 数据 时 代 的 新 闻 业 )， 了 解 新 闻 
记者 是 如 何 运用 数据 来 报道 当今 事件 的 。 片 中 采访 了 许多 业界 高 人 。 


1.1.2 艺术 











《纽约 时 报 》 是 客观 的 。 它 为 人 们 呈现 数据 、 展 现 事 实 ， 而 且 干 得 很 棒 。 但 可 视 化 的 男 一 面 
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则 不 太 注 重 分 析 , 而 更 多 偶 重 于 挖掘 人 类 的 情感 , 比如 Jonathan Harris 和 Sep Kamvar 的 作品 We Feel 
Fine ( 光 图 1-2 )。 


1 think of music in my head but sometimes 1 do that to try and mask what 
lam feeling emotionally so you don t know 1m upset or pissed off or 
depressed or nervous or Whatever when in reality 1 may be screaming 
inside like an intense maelstrom of emotions all colliding with each other 


23 mins ago / from someone 





图 1-2 ”Jonathan Harris 和 Sep Kamvar 的 作品 We Feel Fine( 男 见 彩 插图 1-2 ) 


这 件 交 互 作品 可 以 从 各 个 公开 的 个 人 博客 中 抓 取 词 句 , 然后 将 它们 以 巧 浮 气泡 的 形式 展现 出 
来 。 每 一 个 气泡 都 代表 着 某 种 情绪 ， 而 且 有 相应 的 颜色 标记 。 从 整体 来 看 ,气泡 就 像 无 数 个 体 在 
空间 中 无 止境 地 深 浮 , 但 观察 一 段 时 间 之 后 你 就 会 发 现 它们 开始 肾 集 。 如 琳 在 项 部 灯 单 中 选择 各 
种 分 类 , 还 能 看 到 这 些 狐 似 随机 的 片断 之 间 的 联系 .点 击 单独 的 气泡 可 以 看 到 它 目 吴 的 来 龙 去 脉 。 
整个 作品 既 训 有 诗意 又 能 给 人 以 局 迪 。 























| 用 访 问 http://wefeelfine.org ， 欣 党 Jonathan Harris 和 Sep Kamvar 的 在 线 作 品 ， 并 探索 人 们 此 刻 
的 情绪 。 





还 有 很 多 类 似 的 例子 ， 比 如 Golan Levin 的 The Dumpster( 垃圾 桶 )， 它 同样 也 是 抓 取 博 客 ， 
但 只 涉及 与 他 人 上 断绝 关系 的 内 容 。 还 有 Kim Asendorf 的 Sumedicina， 讲 述 了 一 个 人 脱离 腐败 组 织 
的 虚构 故事 ， 里 面 没 有 只 言 片 滞 ， 只 有 图 形 图 表 。 这 样 的 例子 还 包括 Andreas Nicolas Fischer 展 现 
美国 经 济 请 坡 的 实体 对 塑 。 








耻 访 问 http:/datafl.ws/art， 观 看 FlowingData 上 更 多 有 关 数 据 和 艺术 跨 界 的 例子 。 








重点 是 , 数据 和 可 视 化 并 不 一 定 只 能 和 冰冷 的 、 不 争 的 事实 相关 。 有 时 我 们 寻求 的 并 不 是 分 
析 和 洞察 ,而 是 从 富有 情感 的 观点 来 讲述 故事 , 豆 励 读者 对 数据 作出 回应 。 并 不 是 所 有 的 电影 都 
必须 是 纪录 片 ， 同 样 ， 也 并 不 是 所 有 的 可 视 化 都 必须 是 传统 的 图 形 或 图 表 。 











1.1.3 ”娱乐 


在 新 闻 报 道 和 艺术 创作 之 间 , 可 视 化 在 娱乐 领域 也 找到 了 一 席 之 地 。 如 果 我 们 以 更 为 抽象 的 
角度 来 看 竺 数据 ,在 电子 表格 和 市 分 隔 符 的 文本 之 外 , 将 照 请 和 状态 更 新 也 包括 在 内 ,那么 就 不 
难 发 现 这 一 点 。 

Facebook 利 用 人 们 的 状态 更 新 来 判定 一 年 中 最 快乐 的 日 子 是 哪 一 天 ， 而 在 线 约会 网 站 
OkCupid 则 根据 用 户 的 在 线 信 息 来 估算 人 们 会 怎样 伟大 目 己 在 数字 世界 中 的 形象 ， 如 图 1-3 所 示 。 
这 些 分 析 并 不 会 为 网 站 带 来 业绩 的 提升 、 收 入 的 增加 ， 也 不 可 能 帮助 排除 系统 故障 , 但 它们 却 
为 娱乐 方面 的 价值 而 像 野 火 一 样 迅 速 在 互联 网 上 四 处 传播 。 数 据 能 在 一 定 程度 上 折射 出 我 们 上 自生 
和 社会 的 投影 。 

Facebook 发 现 一 年 中 最 快乐 的 日 子 是 感恩 节 ， 而 OKkCupid 发 现 人 们 一 般 都 会 将 目 己 的 身高 从 
大 2 英寸 ( 约 5 厘 米 ) 左右 。 

















了 > 访问 OkCupid 的 博客 OkTrends ( http://blog.okcupid.com ) 以 查看 有 关 网 上 约会 的 更 多 发 现 ， 
例如 白色 人 种 最 喜欢 的 是 什么 ， 以 及 如 何在 细节 处 保持 形象 。 


一 OkCupid (暗示 ) 











图 1-3” OkCupid 上 的 男性 身高 分 布 
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1.1.4 引 人 注 目 


当然 , 并 不 是 所 有 的 故事 都 以 增长 见闻 或 者 娱乐 大 众 为 目的 。 有 时 候 它 们 是 为 了 提出 倡议 或 
者 呼吁 人 们 作出 行动 。 在 纪录 片 《 难 以 忽视 的 真相 》 中 就 有 令 人 难忘 的 一 幕 : 主讲 人 Al Gore 要 
依靠 剪 叉 式 升降 机 的 帮助 才能 靠近 二 氧化 碳 的 上 升 曲 线 。 

不 过 在 我 看 来 ， 卡 罗 琳 和 学院 的 国际 卫生 学 教授 、Gapminder 基 金 会 理事 Hans Rosling 在 这 方面 
才 是 真正 的 无 人 能 及 。Rosling 曾 经 运用 一 蒜 叫 做 Trendalyzer 的 工具 ( 见 图 1-4 )， 以 动画 的 方式 来 
展现 世界 各 国 摆脱 贫困 的 历程 。 在 他 的 那 次 演讲 中 , 所 有 观众 从 一 开始 就 被 次 次 吸引 到 数据 的 世 
界 里 ， 而 在 结束 时 都 情不自禁 地 起 立 豆 擎 喝彩 。 真 的 非常 精彩 ， 强 烈 建议 不 要 错过 。 
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图 1-4 Gapminder 基 金 会 开发 的 Trendalyzer 软 件 〈 另 见 彩 插图 1-4 ) 


JU 可 选择 中 文 演讲 稿 。 
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他 运用 的 可 视 化 技巧 非常 简单 ， 不 过 是 一 种 可 运动 的 图 表 而 已 。 其 中 的 气泡 代表 各 个 国家 ， 
根据 该 国 的 贫 富 程度 在 时 间 轴 上 移动 。 那 他 的 演讲 为 何 会 如 此 大 受 欢 迎 呢 ? 因为 Rosling 在 演讲 时 
充满 者 信念 和 激情 。 他 是 在 给 大 家 讲 故 事 。 我们 都 遇 到 过 配 有 图 形 图 表演 示 的 演讲 者 , 但 其 中 绝 
大 多 数 都 让 观众 型 于 欲 睡 。 而 Rosling 却 把 握 住 了 数据 背后 的 意义 ,并 将 其 作为 目 己 的 优势 ， 最 后 
的 吞 剑 表演 则 更 是 水 到 渠 成 的 一 笔 。 在 看 了 Rosling 的 演讲 之 后 ， 我 忍 不 住 想 亲手 把 玩 那 些 数据 ， 
重 温 一 遍 他 所 讲 的 故事 。 

之 后 我 又 看 过 Gapminder 基 金 会 的 另 一 次 演讲 ， 相 同 的 主题 、 相 同 的 可 视 化 方式 ， 但 却 是 另 
一 位 演讲 人 。 这 次 就 不 那么 令 人 兴奋 了 一 一 说 老实 话 ， 称 其 为 催眠 曲 也 不 为 过 。 在 数据 中 观众 感 
觉 不 到 任何 情绪， 也 不 能 让 人 从 中 感到 任何 信念 或 激情 。 由 此 可 见 , 数据 本 号 或 许 并 不 一 定 趣 味 
次 然 ， 令 人 产生 诬 刻印 象 的 是 你 设计 数据 和 演示 数据 的 方法 。 

综 上 所 述 , 我 们 应 当 以 讲 故 事 的 角度 来 思考 如 何 可 视 化 。 你 打算 讲 一 个 什么 样 的 故事 呢 ? 它 
的 体裁 类 似 于 报告 还 是 小 说 ? 你 是 否 想 说 服 人 们 应 当 采 取 某 种 行动 ? 

和 小 说 中 的 人 物 成 长 一 样 ,， 每 一 个 数据 背后 都 有 它 目 己 的 故事 ,， 如同 书 中 的 每 一 个 角色 都 有 
着 各 目的 过 去 、 现 在 和 未 来。 那些 数据 彼此 之 间 充 满 着 互动 和 联系 ,如 何 表 现 出 这 些 关 系 则 取决 
于 你 上 自己。 这 就 像 在 动笔 写 小 说 之 前 ， 我们 必须 先 学 会 遗 词 造句 一 样 。 


1.2 我 们 要 寻求 什么 


要 讲 故 事 , 没 问题 。 那么 ， 到 压 应 该 怎样 用 数据 来 讲 故 事 呢 ?自然 , 具体 细 市 会 因为 数据 的 
不 同 而 有 所 差别 ， 不 过 总 体 来 说 ,不管 图 形 表 现 的 是 什么 ， 我们 都 需要 留心 观察 以 下 两 件 事 情 : 
模式 和 相互 关系 。 


1.2.1 模式 


事物 会 随 厦 时 间 的 流逝 而 变化 。 我 们 都 会 老 去 ， 青丝 变 日 发 ,视力 不 复 从 前 ( 见 图 1-5 )。 产 
品 的 价格 会 上 下 浮动 , 品牌 的 商标 逐年 更 换 , 各 种 行业 新 老 交 薛 。 变 化 有 时 突如其来 、 瞩 无 征兆 ; 
有 时 则 十 分 缓慢 、 难 以 察 党 。 

无 论 观察 的 对 象 是 什么 , 变化 本 里 可 以 和 变化 的 过 程 一 样 妙趣 横生。 这 里 探究 的 正 是 随时 间 
推移 而 变化 的 各 种 模式 ,比如 在 观察 股票 价格 时 ,它们 日 然 会 有 增 有 减 , 但 每 天 的 变化 量 是 多 少 ? 
每 周 或 每 个 月 的 变化 量 又 是 多 少 ? 是 否 在 某 个 时 期 内 股票 的 波动 会 寞 于 往 第 ?如 来 是 , 其 原因 何 
在 ?是 否 有 茶 些 特殊 的 事件 引发 了 这 些 变 化 ? 

如 你 所 见 ， 由 对 一 个 问题 出 发 会 市 来 更 多 的 问题 。 并 不 是 只 有 时 间 序 列 数据 会 这 样 ， 所 有 类 
型 的 数据 都 是 如 此 。 努 力 探索 数据 育 后 的 含义 ， 你 就 会 发 现 更 多 有 趣 的 答案 。 

我 们 也 可 以 用 不 同 的 方式 来 拆 分 时 间 序列 数据 。 有 时 需要 按 天 或 小 时 来 显示 数值 ， 有 时 则 更 
适合 以 年 或 月 为 单位 。 前 者 的 时 序 图 会 显示 出 更 多 杂 上 点， 而 后 者 则 但 回 于 呈现 总 量 。 

使 用 过 网 站 分 析 工 具 的 人 可 能 会 比较 认同 这 一 点 。 以 日 为 单位 来 监测 网 站 流量 时 , 图表 就 会 
起 伏 不 平 ， 存 在 很 多 波动 ， 如 图 1-6 所 示 。 
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小 物件 


“这 个 空 盒子 好 有 趣 。 我 要 用 它 当 “你 知道 第 一 个 硬 纸 盒 是 1817 年 生产 
城堡 ， 而 我 是 里 面 的 国王 。 好 耶 ! ” ”的 吗 ? 是 在 伦敦 。 我 记得 ……” 


同 





图 1-5 ”喜剧 化 地 看 待 衰老 


FlowingData 网 站 的 日 访问 量 
10 (万 次 页 面 访问 量 ) 


9 月 10 月 11 月 12 月 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 
2009 2010 


Source: Google Analytics 





图 1-6 FlowingData 网 站 的 每 日 独立 访客 量 


而 当 我 们 以 月 为 单位 来 观测 时 ,图表 上 涵盖 同样 时 间 跨 度 的 数据 方 点 就 会 减少 ,显得 更 加 平 
滑 ， 如 图 1-7 所 示 。 

我 并 不 是 说 某 个 图 表 比 男 一 个 要 好 。 事实 上 它们 是 相互 补充 的 。 如 何 拆 分 数据 则 取决 于 你 需 
要 (或 不 需要 ) 多 少 细 市 。 

当然 ， 我 们 寻求 的 不 仅 是 随时 间 而 变化 的 模式 。 还 有 很 多 有 关 总 量 的 模式 能 帮助 我 们 对 团 
体 、 人 或 事 进 行 比较 。 你 每 周 会 吃 什么 食物 、 喝 什么 饮料 ?” 美国 总 统 在 每 年 发 表 国 情 咨 文 时 通 
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党 都 会 谈论 哪些 内 容 ? 有 哪些 州 倾 问 于 投 共和 和 党 的 票 ?” 对 于 后 面 这 个 问题 ， 按 地 区 性 来 寻找 模 
式 显然 会 更 有 帮助 。 尺 管 问题 和 数据 类 型 各 有 不 同 ， 但 我 们 的 处 理 方式 是 相似 的 ， 这 在 后 面 几 
章 中 就 会 看 到 。 


FlowingData 网 站 的 月 访问 量 
100 (万 次 页 面 访问 量 ) 


9 月 10 月 11 月 12 月 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 
2009 2010 


Source: Google Analytics 








图 1-7 FlowingData 网 站 的 每 月 独立 访客 量 


1.2.2 相互 天 系 


你 是 否 见 过 那 种 包含 了 一 大 堆 图 表 、 看 上 去 像 是 随意 堆砌 的 数据 图 ?这 种 图 表 似乎 丢失 了 某 
种 特别 的 东西 ， 束 好 像 是 设计 师 敷 衍 了 事 、 赶 在 最 后 期 限 到 来 之 前 匆匆 完成 的 作品 。 一 般 来 说 ， 
这 种 特别 的 东西 就 是 图 表 相 互 之 间 的 关系 。 

在 统计 学 中 ， 它 通常 代表 的 是 关联 性 和 因 采 关系 。 多 个 变量 之 间 应 该 存在 着 东 种 联系 。 第 6 
划 将 详 述 这 些 概 念 以 及 可 视 化 的 方法 。 

不 过 在 更 为 抽象 的 层面 , 抛 开 各 种 等 式 或 假设 检验 不 谈 , 我 们 完全 可 以 在 视觉 上 对 数据 图 进 
行 设计 , 用 于 比较 和 对 照 各 种 数值 和 分 布 。 这 里 有 一 个 人 简单 的 例子 , 摘 目 我 的 作品 World Progress 
Report( 世界 发 展 报告 ) 中 有 关 科 技 的 部 分 ， 如 图 1-8 所 示 。 








了 World Progress Report 是 一 份 有 关 全 球 发 展 对 比 的 图 形 化 报告 ， 数 据 来 源 于 UNdata。 请 访 


问 http://datafl.ws/12i 浏 览 完 整 版 本 。 





我 使 用 了 下 方 图 来 表现 每 100 个 居民 中 互联 网 用 户 、 互 联网 订购 者 和 宽带 用 户 的 数量 。 请 注 
意 互 联网 用 户 的 路 越 幅 度 ( 从 没有 用 户 到 每 100 拓 民 中 有 95 位 用 户 ) 比 其 他 两 个 数据 集 要 宽 得 多 。 
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科技 


互联 网 用 户 互联 网 订购 者 宽带 购买 者 


中 间 什 / 中 间 值 
23 个 用 户 z 5 个 订购 者 : 4 个 购买 者 


[| nls. 
0 (每 100 个 居民 ) 0 (每 100 个 居民 ) 


固定 电话 对 比 手 机 用 户 。” 手机 使 用 增长 


(每 100 个 居民 ) 





图 1-8 全 球 范 围 的 科技 采用 


最 方便 的 办 法 目 然 是 让 软件 根据 数据 的 多 少 来 日 动 设 定 每 一 个 直方 图 的 幅度 。 但 是 , 尽管 没 
有 任何 国家 的 互联 网 订购 者 或 宽带 用 户 达 到 95%， 我 仍然 赋予 每 一 个 直方 图 以 相同 的 幅度 。 这 能 
让 读者 一 日 7 然 地 比较 各 群体 间 的 分 布 情 况 。 

当 你 需要 处 理 很 多 不 同 的 数据 集 时 , 请 尝试 将 它们 进行 分 组 , 而 不 是 当做 互 不 干涉 的 单独 元 
素来 看 待 。 这 样 能 够 产生 更 加 有 趣 的 结 


1.2.3 ”有 问题 的 数据 


在 数据 中 寻找 故事 时 ,我们 应 该 对 自己 所 看 到 的 保持 质疑 态度 。 记 住 , 决 不 能 只 因为 它 是 数 
字 就 相信 它 就 是 正确 的 。 

我 必须 承认 ,数据 检验 无 疑 是 我 在 数据 图 制作 过 程 中 最 不 喜欢 的 一 步 。 我 的 意思 是 说 ， 当 某 
个 人 、 组 织 或 服务 机 构 为 你 提供 一 大 堆 数据 时 ， 本 应 该 由 他 们 来 确保 所 有 数据 都 是 真实 可 信 的 。 
但 这 同样 也 是 一 位 优秀 数据 图 形 设计 师 的 分 内 之 事 。 毕 竞 , 可 靠 的 建筑 师 不 会 用 劣质 水 泥 来 为 房 
屋 英 基 ， 所 以 我 们 也 不 要 用 劣质 的 数据 来 构建 自己 的 数据 图 。 

也 许 数据 检验 与 核实 不 是 数据 图 设计 中 最 重要 的 部 分 ， 但 它 绝 对 是 其 中 不 可 或 缺 的 部 分 
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基本 上 ,我 们 要 注意 的 是 那些 不 太 对 头 的 东西 。 也 许 是 因为 在 数据 输入 时 出 现 了 失误 ， 某 人 
多 添 或 者 遗漏 了 一 个 零 ; 也 许 是 在 数据 收集 时 网 络 出 现 了 问题 , 有 些 字 节 被 随机 移动 到 了 其 他 地 
方 。 无 论 原 因 是 什么 ， 如 果 任 何 东 西 看 上 去 有 些 异 常 ， 我 们 就 需要 到 源头 去 进行 验证 。 

提供 数据 的 人 通常 都 会 对 数据 所 表现 的 普遍 状况 有 所 认识 。 如 果 你 自己 就 是 收集 数据 的 人 ， 
自问 一 下 这 是 否 说 得 过 去 : 所 有 地 区 在 某 方面 的 指标 都 只 有 10% ~ 20%， 而 某 个 地 区 却 达到 了 
90%。 那 里 是 不 是 出 了 什么 问题 ? 
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大 部 分 异常 都 只 是 笔 误 而 已 , 但 有 些 异 帝 却 真 的 存在 ， 而 它们 就 是 有 意思 的 地 方 , 可 以 作为 
故事 的 重点 。 如 来 你 遇 到 了 卉 常 ， 一定 要 确定 它 到 瓜 属 于 前 者 还 是 后 者 。 


1.3 设计 
当 所 有 的 数据 都 安排 受 当 ， 束 可 以 着 手 进 行 可 视 化 了 。 无 论 你 做 的 是 什么 , 报告、 网 上 的 信 


居 图 抑或 是 数据 艺术 品 ， 都 应 当 巡 循 一 些 基 本 的 规则。 所 有 这 些 规则 都 是 弹性 的 , 更 像 是 一 个 框 
染 而 不 是 生 搬 人 硬 套 的 教条 ， 但 如 末 你 刚刚 接触 数据 图 形 ， 从 这 些 开 始 应 该 不 会 错 。 

















1.3.1 解释 编码 


数据 图 形 的 设计 流程 都 是 相似 的 。 你 先 拿 到 数据 ， 然 后 以 圆 形 、 柱 形 和 颜色 等 形式 对 数据 进 
行 “编码 ”， 最 后 呈现 给 读者 。 因 此 读者 必须 先 对 你 的 编码 进行 “解码 ”: 这 些 圆 形 、 柱 形 和 颜色 
分 别 代 表 什 么 ? 

William Cleveland 和 Robert McG 记 ll 曾 撰文 对 编码 进行 过 详细 的 探讨 。 某 些 编码 方式 要 比 其 他 
编码 方式 更 行 之 有 效 。 但 如 采 一 开始 读者 不 清楚 你 的 编码 所 代表 的 对 象 ， 那么 选择 任何 编码 方式 
都 没有 效果 。 如 果 他 们 不 能 解码 ， 那 么 你 对 数据 图 的 辛 苗 设 计 就 是 无 用 功 。 





说 明 阅读 Cleveland 和 McGill 所 着 论文 “Graphical Perception and Graphical Methods for 
Analyzing Data”( 数据 分 析 的 图 形 化 感知 和 图 形 化 方法 )， 以 深入 了 解 人 们 如 何 编码 形状 
及 色彩 。 


有 时 候 我 们 会 在 数据 艺术 品 或 信息 图 中 看 到 这 种 图 形 缺 失 上 下 文 的 情况 。 可 能 在 数据 艺术 品 
中 更 为 第 见 。 过 多 的 标记 或 说 明文 字 确 实 可 能 会 破坏 作品 的 气氛 , 但 至 少 可 以 在 劳 边 给 出 一 小 段 
描述 性 的 文字 ， 提 供 必 要 的 信息 。 这 能 帮助 其 他 人 理解 并 欣赏 你 的 设计 成 果 。 

如 果 在 大正 的 数据 图 中 出 现 这 种 情况 ,读者 就 会 感到 泪 丧 失望 ,而 这 是 我 们 最 不 愿意 看 到 的 。 
有 时 候 这 是 因为 设计 师 一 下 与 数据 打交道 ,他们 知道 每 一 样 东 西 都 代表 什么 意思 ,所 以 在 设计 时 
忘 了 面面俱到 。 但 是 谱 者 在 看 到 图 表 之 前 对 它 是 一 无 所 知 的 ,他 们 并 不 加 悉 设计 师 在 分 析 过 程 中 
所 了 解 到 的 上 下 文 。 

那么 如 何 确保 谈 者 能 够 解码 我 们 的 编码 呢 ? 可 以 通过 标记 、 说 明文 字 和 图 解 来 解释 各 个 图 表 
所 代表 的 内 容 。 选 择 何 种 解释 方式 取决 于 具体 情况 。 比 如 说 ， 让 我 们 看 看 图 1-9 中 的 世界 地 图 ， 
它 显 示 了 Firefox 浏 览 硕 在 各 个 国家 的 使 用 情况 。 
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世界 各 地 的 Firefox 用 户 


-A 
"a 
| 家 


Sources: Mozilla, Internet World Stats 








图 1-9 ”世界 各 国 Firefox 的 使 用 情况 ( 男 见 彩 插图 1-9 ) 


我 们 可 以 看 到 不 同 国家 蓝 色 有 诬 浅 之 别 , 但 这 代表 什么 意思 呢 ? 深蓝 色 是 代表 使 用 量 大 还 是 
小 ”如果 深 蓝 色 代表 使 用 量 大 , 那么 大 的 衡量 标准 又 是 多 少 ? 如 果 只 有 这 些 元 素 , 这 张 地 图 对 我 
们 来 说 几乎 没有 多 少 作用 。 但 如 来 设计 师 提 供 了 图 1-10 中 的 说 明 ， 事情 就 会 清楚 很 多 。 除 了 对 色 
彩 进 行 了 说 明 外 ， 它 还 是 一 个 直方 图 ， 根 据 用 户 数量 的 多 少 表现 了 使 用 情况 的 分 布 。 




















每 1000 位 互联 网 用 户 中 Firefox 的 用 户 数 





图 1-10 ”Firefox 使 用 区 域 数 据 图 的 说 明 (为 见 彩 择 图 1-10 ) 


如 条 有 足够 的 空间 ， 而 且 分 类 不 多 的 话 ， 我 们 也 可 以 直接 在 形状 或 对 象 劳 边 添加 标记 ， 如 
图 1-11 所 示 。 这 个 图 表 显 示 了 明星 们 在 最 终 捧 得 奥斯卡 最 佳 男 主 角 奖 之 前 在 往届 兽 获 得 的 提名 
次 数 。 

网 上 流传 有 一 种 理论 , 在 所 有 入 围 者 中 , 往年 获得 提名 次 数 最 多 的 人 通 弟 就 会 左 得 当年 的 金 
像 奖 。 如 图 中 所 标注 的 ， 暗 橙色 ( 图 中 为 深 色 ) 表示 该 获奖 者 确实 是 往届 提名 最 多 的 人 ， 而 亮 杰 
色 (图 中 为 浅 色 ) 则 表示 这 位 大 奖 得 主 曾 获得 的 提名 次 数 并 不 是 所 有 入 围 者 中 最 多 的 。™ 

如 你 所 见 , 要 想 对 图 表 进 行 解释 ， 我们 可 以 有 很 多 选择 。 运 用 它们 的 方法 虱 很 容易 , 但 正 是 






































J 出 于 印刷 成 本 的 考虑 ， 在 不 影响 读者 理解 的 前 提 下 ， 本 书 中 一 些 色 彩 人 简单 的 图 未 给 出 彩 择 ， 而 通过 灰 度 的 深浅 来 
区 分 。 编者 注 
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这 些 细 市 之 处 造就 了 数据 图 的 不 同 阅读 方式 。 


在 赢得 桂冠 前 获得 奥斯卡 最 佳 男 主 角 的 提名 次 数 


是 否 获得 往届 提名 次 数 越 多 的 演员 就 越 有 可 能 获奖 ? 在 1980 年 
以 来 的 29 位 最 佳 男 主角 得 主 中 ， 只 有 10 位 是 当 届 所 有 入 围 者 中 
歼 得 提名 次 数 最 多 的 人 。 


sean renn | EGG 在 该 年 度 所 有 人 围 者 中 ， 往 
Daniel Day-Lewis EE | 届 提名 次 数 最 多 


estWhiaker 国 于 一 一 一 一 一 一 在 读 年 度 所 有 人 围 者 中 ， 往 
ip >eymOUT oriman 届 提 名 次 数 并 非 最 多 


Jamie Foxx 
Sean Penn 
Adrien Brody 
Denzel Washington 
Russell Crowe 
Kevin Spacey 
Roberto Benigni 
Jack Nicholson NN HN EE EE EE EE EE EE EE EE EE 
Geoffrey Rush 
Nicolas Cage 
Tom Hanks 
Tom Hanks 
Al Pacino 
Anthony Hopkins 
Jeremy Irons 
Daniel Day-Lewis 
Dustin Hoffman 
Michael Douglas 
Paul Newman 
William Hurt 
F. Murray Abraham 
Robert Duvall 
Ben Kingsley 
Henry Fonda 
Robert De Niro 


往届 获得 的 提名 次 数 


Source: Wikipedia 





图 1-11 ”下 接 对 对 象 进行 标注 


1.3.2 标注 坐标 轴 


对 编码 需要 进行 解释 ,对 坐标 轴 也 应 当 进 行 标注 。 没 有 标注 或 解释 的 坐标 轴 就 只 是 个 摆设 而 
已 。 标 注 坐 标 轴 可 以 让 读者 知道 它 所 描绘 的 尺度 和 内 容 ， 和 否则 就 会 猜测 它 代 表 的 到 底 是 增 量 、 对 
数 、 指 数 ， 还 是 每 100 个 抽水 马桶 如 何如 何 。 就 我 个 人 来 说 ， 每 当 不 清楚 坐标 轴 的 标记 是 什么 时 
我 就 会 假设 它 代 表 的 是 最 后 一 种 意思 。 

数 年 前 我 曾 在 FlowingData 上 举办 过 一 次 竞赛 。 我 发 表 了 如 图 1-12 所 示 的 一 张 图 片 , 然后 邀请 
网 友 来 标注 坐标 轴 ， 看 谁 标注 的 结果 最 有 乐趣 。 

针对 同一 幅 图 形 我 收 到 了 大 约 60 份 不 同 的 标注 。 图 1-13 中 显示 了 其 中 的 一 部 分 。 








14 第 1 章 用 数据 讲 故 事 


X 与 Y 
在 这 里 添加 你 的 标 证 。 





图 1-12 ”在 这 里 添加 你 的 标注 


, 仅 


化 的 可 能 性 


图 6-3。KU= w+p*K，KU= 已 知 的 未 知 物 

数量 , 玉 = 已 知 物 的 数量 ，8 > 0 (p < 0.001) 

( 需 授 权 使 用 ， 数 据 来 产 ， 《美国 中 西部 统 

已 婚 夫妇 的 计 认 识 论 杂志 》 ) 
性 高 潮 图 示 


车 祸 的 严重 程度 


妻子 的 性 高 狂 


丈夫 的 性 高 痢 斜坡 的 长 度 
坡度 会 极 大 影响 你 
跳台 请 雪 的 
效果 


为 《美国 偶 


小 孩 做 到 的 
像 》 投 票 


小 孩 看 到 的 


中 
沈 
江 
Rae 
反 
LL 
亚 。 
fr 
ESN 


我 志 记 的 东西 


获得 礼物 
的 概率 


已 证 明 的 定理 数 我 学 到 的 东西 


比赛 获得 的 
赢得 本 次 竞 
赛 的 可 能 性 


资助 金额 





发 表 的 博客 数量 标注 内 容 与 本 人 的 相关 程度 。 个 人 的 知识 程度 和 财 定量 


点 非法 则 的 
实证 证 据 


必 将 出 状况 


在 俄勒冈 待 
的 事情 


的 时 间 


对 阴雨 天 气 的 接受 程度 可 能 会 出 状况 的 事情 





图 1-13 FlowingData 标 注 竞 赛 的 部 分 投稿 作品 
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如 你 所 见 , 尽管 每 个 人 看 到 的 都 是 同一 幅 图 表 , 但 只 要 改动 坐标 灿 的 标记 就 会 得 到 一 个 完全 
不 同 的 故事 。 当然, 这 只 是 为 了 好 玩 , 但 试想 如 果 你 想 让 别人 认真 对 竺 你 的 图 表 , 情况 又 会 怎样 ? 
没有 了 标记 ， 你 的 图 表 就 宫 无 意义 。 
1.3.3 ”确保 几何 上 的 正确 性 

在 设计 数据 图 时 必定 会 用 到 几何 形状 。 柱 形 图 中 有 和 窍 形 ,它们 的 长 度 代表 了 数值 的 多 少 。 在 
所 状 图 中 表现 数值 的 则 是 位 置 , 这 和 标准 的 时 序 岁 类 似 。 饼 网 通过 角度 来 表现 数值 ， 其 总 和 通 稼 


都 等 于 100% (参见 图 1-14 )。 这 些 都 很 简单 ， 但 是 也 很 容易 出 错 ， 所 以 要 多 加 小 心 。 如 果 我 们 不 
加 注意 就 有 可 能 弄 糟 ， 而 读者 尤其 是 网 友 们 对 此 是 不 会 留情 面 的 。 

















合计 100% 合计 超过 了 100% 





图 1-14 绘制 饼 图 的 正确 及 错误 方法 


为 一 个 第 见 的 错误 是 ， 设 计 师 运用 二 维 的 形状 来 表现 数值 ， 但 却 把 它们 当做 是 一 维 来 比较 。 
柱 形 图 中 的 矩形 虽然 是 二 维 的 ,但 我 们 只 会 用 到 它 的 长 度 ， 宽 度 其 实 并 无 实际 意义 。 但 如 果 是 气 
泡 图 ， 怠 会 用 面积 来 表现 数值 ， 而 新 手 往 往 只 会 考虑 半径 或 百 径 ， 导 致 比例 完全 错误 。 

图 1-15 中 的 一 对 圆 形 根据 面积 大 小 来 计算 对 比 关 系 。 这 是 正确 的 方法 。 








如 果 你 用 面积 来 计算 对 比 关 系 ， 
那么 圆 A 是 圆 B 大 小 的 一 半 。 








图 1-15 ”比较 气泡 的 正确 方法 
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图 1-16 中 的 一 对 圆 形 则 是 根据 直径 来 计算 的 。 第 二 个 圆 的 直径 是 第 一 个 的 两 倍 , 但 面积 却 是 
它 的 4 倍 。 





然而 ， 如 果 你 用 直径 来 计算 对 
比 关 系 ， 圆 A 实际 上 只 有 圆 B 大 
小 的 1/4。 





图 1-16 ”比较 气泡 的 错误 方法 


在 处 理 和 矩形 时 也 是 一 样 ， 例 如 板块 层级 网 ( treemap )。 我 们 用 乞 形 的 面积 来 代表 数值 ， 而 非 
仅 取 用 它 的 长 或 宽 。 


1.3.4 提供 数据 来 源 


本 来 这 一 点 捡 庸 歼 言 ,但 就 是 有 很 多 人 都 漏 了 它 。 你 的 数据 是 从 哪儿 来 的 ? 我 们 在 报刊 杂志 
上 看 到 的 数据 图 都 附 有 数据 来 源 , 通 笛 都 以 小 字体 印 在 岁 表 的 底部 。 你 也 应 该 如 此 做 ， 和 否则 读者 
就 没 办 法 知道 你 的 图 表 有 多 准确 。 

没有 数据 来 源 , 读者 也 可 能 会 怀疑 图 中 的 数据 是 不 是 明 编 乱 造 的 。 当 然 我 们 不 会 这 么 做 , 但 
并 不 是 所 有 人 部 会 相信 这 一 点 。 | 除了 为 图 表 市 来 信誉 之 外 ,数据 来 源 还 能 便于 读者 进行 核验 或 者 
分 析 。 

提供 数据 来 源 还 能 为 数据 市 来 更 多 的 上 下 文理 景 。 在 茶 个 小 镇 上 岳 的 民意 测验 与 全 关 人 口 普 
查 相 比 ， 得 到 的 诠释 日 然 会 有 天 塘 之 别 。 


1.3.5 考虑 你 的 受众 


最 后 , 多 考虑 数据 图 本 号 的 设计 意图 和 受众 群体 。 比 如 说 ,演讲 幻灯 厂 中 的 饼 图 就 应 该 设计 
得 尽量 简单 明了 。 如 末 在 其 中 加 入 大 量 细 市 ， 怒 怕 就 只 有 坐 在 前 排 的 听众 才能 够 看 消 。 但 如 果 是 
供 人 学 习 人 研究 用 的 印刷 品 ， 添 加 细节 承 没 太 大 问题 。 

如 有 果 数 据 图 是 放 在 商业 报告 里 , 那么 就 不 要 把 它 设计 成 惊世骇俗 的 艺术 人 作品。 简单、 直达 主 
题 才 是 你 追求 的 目标 。 如 果 只 是 用 于 分 析 , 那么 数据 图 本 身 就 够 了 ,无 需 在 美感 和 注释 上 花费 大 
量 时 间 。 如 采 你 的 图 形 是 为 了 发 布 给 大 众 , 那么 设计 就 不 要 过 于 复杂 ， 同 时 为 任何 可 能 产生 疑义 
的 概念 提供 解释 。 
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1.4 ”小 结 


简 而 言 之 ， 以 某 个 问题 作为 出 发 点 ,以 批判 的 眼光 检查 你 的 数据 ， 并 且 把 握 图 形 的 设计 意图 
以 及 受众 群体 。 这 有 助 于 你 设计 出 清楚 的 数据 图 , 不 会 让 读者 失望 一 一 不 管 是 哪 方面 的 图 形 都 是 
如 此 。 

在 后 续 几 章 中 我 们 会 谈 到 具体 的 做 法 。 你 将 学 会 如 何 处 理 数 据 并 且 进 行 可 视 化 , 如 何 从 头 到 
尾 设计 出 完整 的 数据 图 。 之 后 你 就 能 学 以 致 用 一 一 找 出 你 自己 要 讲 的 故事 , 然后 进行 相应 的 设计 。 











处 理 效 据 





在 我 们 开始 视觉 化 之 前 ,首先 需要 有 数据 。 正 是 数据 让 可 视 化 有 趣 起 
来 。 如 果 数 据 本 身 没 有 意思 ， 就 只 能 是 一 张 好 看 但 无 用 的 图 片 而 已 ,很 快 
就 会 被 人 丢 在 脑 后 。 那么 在 哪里 才能 找到 好 的 数据 ? 又 怎样 去 获得 它 呢 ? 

在 拿 到 了 数据 之 后 , 我 们 还 需要 对 它们 进行 格式 化 ,以便 输入 到 软件 
中 去 。 你 得 到 的 可 能 是 以 逗号 分 隔 的 文本 文件 ， 或 者 Excel 电 子 表格 ， 而 
你 需要 将 它们 转换 成 像 XML 这 样 的 语言 。 或 者 反之 亦 然 : 也 许 原 始 的 零 
散 数据 来 自 于 某 个 网 页 应 用 ， 但 你 需要 的 是 一 份 完整 的 电子 表格 。 

首先 学 会 如 何 获得 数据 和 处 理 数据 ， 然 后 再 提高 我 们 的 可 视 化 技能 。 
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2.1 ”收集 数据 


数据 是 任何 可 视 化 的 精 艇 与 核心 。 洱 运 的 是 ， 有 很 多 途径 可 以 找到 它们 , 例如 求助 于 领域 内 
的 专家 ,使 用 各 种 在 线 应 用 ， 或 者 徘 日 己 的 力量 来 收集 。 


2.1.1 由 他 人 提供 


这 种 途径 非常 普遍 。 如 末 你 是 日 由 设计 师 , 或 者 是 在 大 公司 图 形 部 门 工 作 的 设计 师 , 那么 束 
对 是 如 此 。 这 通 第 是 一 件 好 事 ， 因 为 有 人 为 你 分 担 了 数据 收集 这 部 分 工作 , 但 仍旧 不 能 大 意 。 数 
据 在 变 成 格式 优美 的 电子 表格 呈现 给 我 们 之 前 ， 途 中 可 能 会 出 现 很 多 错误 。 

在 我 们 用 电子 表格 来 分 至 数据 时 ， 最 第 见 的 错误 就 是 笔 误 。 有 没有 产 挥 稚 ? 这 里 是 否 应 
该 是 6 而 不 是 $? 一 般 来 说 ， 除 了 市 分 隅 和 从 的 文本 文件 之 外 ， 数 据 虱 是 直接 从 来 源 读 取 ， 然 后 
叶 人 到 Excel 或 其 他 电子 表格 程序 里 面 ， 因 此 一 些小 的 笔 误 很 容易 束 会 尝 混 过 关 ， 来 到 我 们 
Ea 

上 下 文 环 境 也 需要 检查 。 我 们 不 必 成 为 研究 数据 主题 的 专家 , 但 至 少 应 该 知道 数据 的 原始 出 
处 、 收 集 的 过 程 以 及 背后 的 主 由 。 这 能 帮助 我 们 创建 出 更 加 优秀 的 数据 图 ， 让 故事 更 加 完整 。 假 
如 你 关心 的 是 问卷 调查 , 那么 调查 是 何 时 举办 的 ?是 谁 发 起 的 ? 有 哪些 人 参与 ?很 明显 ,20 世纪 
70 年 代 的 问卷 调查 结果 和 今天 的 必 将 稚 然 不 同 。 


2.1.2 寻找 数据 源 


如 采 没 有 人 提供 数据 ， 我 们 只 能 目 己 花 力气 寻找 。 从 坏 的 一 面 来 看 ， 肩 上 的 担子 更 重 了 , 但 
从 好 的 一 面 来 看 ， 找 到 相关 度 高 的 数据 会 越 来 越 容 易 ， 而 且 机 禹 可 读 性 也 会 更 高 (也 就 是 说 ,更 
方便 输入 到 软件 中 去 ) 我 们 可 以 从 以 下 方面 着 手 。 

1. 搜索 引擎 

今天 我 们 怎样 在 网 上 找 东 西 ? 我 们 用 Google。 这 几乎 是 顺理成章 的 事情 , 但 仍然 有 很 多 人 发 
邮件 问 我 应 该 怎样 才能 得 到 某 革 数据、 是否 有 什么 便捷 方法 。 我 个 人 一 般 去 的 承 是 Google， 偶 尔 
也 会 去 Wolfram|Alpha ( 这 是 一 蒜 市 有 计算 能 力 的 搜索 引擎 )。 
























































也 访问 http://wolframalpha.com 试 用 Wolfram|Alpha。 如 果 你 需要 某 方面 的 基础 统计 结果 ， 这 款 
搜索 引 营 会 非常 有 帮助 。 


2. 直接 数据 源 

如 果 直 接 查 询 “ 数 据 ” 不 能 得 到 任何 有 用 的 结果 ， 可 以 尝试 求助 于 该 领域 的 学 者 。 有 了 时候 
他 们 会 在 其 个 人 网 站 上 发 布 数据 。 如 果 没 有 ， 也 可 以 翻阅 他 们 的 论文 或 学 术 报 告 寻 求 线 索 。 你 
甚至 还 可 以 直接 给 他 们 发 邮件 ,但 要 先 确 定 他 们 确实 作 过 相关 的 人 研究， 否则 只 会 是 浪费 大 家 的 
时 间 。 
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你 也 可 以 在 《纽约 时 报 》 等 新 闻 机 构 发 布 的 图 表 中 寻找 数据 源 。 这 些 来 源 通 常 都 会 以 小 字体 
附 在 图 表 的 某 处 。 如 采 这 些 地 方 没 有 ， 相关 文章 中 也 应 该 会 提 到 。 如 采 你 在 报纸 或 网 上 看 到 某 个 
图 表 正 好 使 用 了 你 感 兴趣 的 数据 ， 这 一 招 会 很 有 有 用。 搜索 这 个 来 源 所 属 的 网 站 ， 也许 就 能 得 到 完 
整 的 数据 。 
自称 是 某 某 报纸 的 记者 , 直接 向 文 草 作 者 发 邮件 也 是 一 条 路 。 不 过 还 是 先 试 试 能 不 能 找到 来 
源 网 站 吧 。 
3. 大 学 资源 
作为 一 名 人 研 究 生 ， 我 党 稼 会 利用 学 术 资 源 ， 也 就 是 大 学 图 书馆 。 许 多 网 书馆 都 扩充 了 它们 
的 科研 资源 ， 拥 有 丰 军 的 数据 存档 。 一 些 统计 学 院 系 还 登记 了 数据 文件 清单 ， 其 中 有 很 多 都 对 
公 从 开放， 虽然 许多 院 系 的 数据 库 是 为 课程 实验 室 和 在 籍 学 生 的 练习 作业 准备 的 。 我 建议 访问 
以 下 资源 。 
口 数据 及 故事 图 书馆 ( Data and Story Library, DASL,， http://lib.stat.cmu.edu/DASL/ ) 一 一 有 
关 数 据 文件 以 及 讲述 基础 统计 方法 用 法 的 在 线 图 书馆 ， 来 自 卡 内 基 梅 隆 大 学 。 
口 伯克利 数据 实验 室 ( Berkeley Data Lab，http://sunsite3.berkeley.edu/wikis/datalab/ ) 一 一 加 
州 大 学 伯 元 利 分 校 图 书馆 系统 的 一 部 分 。 
口 加 州 大 学 洛杉矶 分 校 统 计数 据 库 ( UCLA Statistics Data Sets, www.stat.ucla.edu/data/ ) 一 一 
加 州 大 学 洛杉矶 分 校 统计 学 院 的 数据 库 ， 主 要 用 于 实验 室 和 诛 程 练习 。 
4. 综合 数据 类 应 用 
有 关 数 据 提 供 的 综合 性 网 络 服务 日 益 增 多 。 有 些 网 络 应 用 提供 了 大 型 的 数据 文件 , 供 人 有 傍 
或 无 偿 下 载 。 还 有 一 些 应 用 则 由 广大 开发 人 员 创 建 , 通过 应 用 编程 接口 ( Application Programming 
Interface，API ) 获得 数据 。 这 能 让 我 们 运用 某 些 服务 应 用 ( 例如 Twitter ) 的 数据 ， 并 整合 进 自 己 
的 程序 中 去 。 以 下 是 其 中 一 些 资 源 。 
口 Freebase ( www.freebase.com ) 一 一 一 个 主要 人 致力 于 提供 关于 人 物 、 地 点 和 事件 的 数据 的 
社区 。 它 在 数据 方面 有 点 类 似 维基 百科 ,但 网 站 的 结构 更 清晰 。 可 以 下 载 网 友 上 传 的 数 
据 文 件 ， 或 者 将 你 上 自己 的 数据 进行 备份 。 
数据 市 场 ， 提 供 免 费 和 收费 的 数据 下 载 。 你 也 可 


















































OD Infochimps (http://infochimps.org ) 
以 通过 他 们 的 API 来 获得 数据 。 

口 Numbrary (http:/numbrary.com ) 为 网 上 的 数据 进行 编目 ， 主 要 为 政府 数据 。 

口 AggData ( http://aggdata.com ) 一 一 提供 付费 的 数据 集 ， 多 关注 于 各 种 零售 业 的 地 区 性 
数据 。 

口 亚马逊 公用 数据 库 ( Amazon Public Data Sets，http://aws.amazon.com/publicdatasets ) 
更 新 不 多 ， 但 确实 有 一 些 科 研 方面 的 大 型 数据 集 。 

口 维基 百科 ( http://wikipedia.org ) 一 一 在 这 个 徘 社 区 运转 的 百科 全 书 中 有 大 量 HTML 表 格格 
式 的 小 型 数据 集 。 

5. 专题 性 数据 

除了 综合 性 的 数据 提供 商 之 外 ， 还 有 很 多 主题 较 单一 的 网 站 ， 它 们 提供 了 大 量 免 费 的 数据 。 
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以 下 是 按 部 分 主题 进行 的 分 类 。 
@ 地 理 
只 有 绘制 地 图 的 软件 , 但 却 没 有 地 理 方面 的 数据 ?你 走运 了 。 有 大 量 的 形状 特征 文件 和 地 区 
性 数据 资料 任 你 调用 。 
口 TIGER (www.census.gov/seo/www/tiger/ ) 来 和 目 美国 人 口 统计 局 ， 可 能 是 目前 最 全 、 
最 详细 的 有 关 拓 路、 铁路 、 河 流 及 邮政 区 域 等 方面 的 数据 。 
口 OpenStreetMap (www.openstreetmap.orgy ) 最 好 的 数据 社区 之 一 。 
口 Geocommons ( Www.geocommons.com/ ) 一 -一 既 有 数据 ， 又 有 地 图 绘制 软件 。 
口 Flickr Shapefiles( www.flickr.com/services/api/ ) 一 一 根据 Flickr 用 户 上 传 照片 获得 的 地 理 数据 。 
@ 体育 
人 们 热爱 体育 欧 技 方面 的 统计 ， 近 几 十 年 来 的 欧 技 数据 都 不 难 找 到 。 你 可 以 在 《体育 画报 》 
等 区 志 或 者 各 球 队 官方 网 站 上 找到 它们 ， 也 可 以 去 专门 的 数据 型 网 站 。 
口 Basketball Reference( www.basketball-reference.com/ ) 一 一 提供 每 一 场 NBA 赛 事 的 详细 数据 。 
口 Baseball DataBank ( http://baseball-databank.org/ ) 可 以 下 载 到 美 职 棒 联 赛 完 整数 据 的 
入门 级 网 站 。 
口 databaseFootball ( www.databasefootball.com/ ) 
队 、 球 员 和 赛季 的 数据 。 
@ 全 球 
一 些 大 的 国际 性 组 织 都 有 关于 全 球 性 的 数据 ， 主 要 集中 在 卫生 保健 和 发 展 指标 等 方面 。 不 
过 需要 稀 选 一 下 ， 因 为 大 部 分 数据 都 相对 稀 玻 。 在 各 个 国家 的 数据 间 建 立 统一 的 衡量 标准 也 不 
太 容 易 。 
口 全 球 卫 生 事 实数 据 库 (Global Health Facts，www.globalhealthfacts.org/ ) 一 一 世界 各 国医 
疗 卫生 方面 的 数据 。 
口 UNdata (http:/data.un.org/ ) 一 一 来 源 众多 的 全 球 数 据 聚 合 。 
口 世界 卫生 组 织 ( World Health Organization, www.who.int/research/en/ ) 
生 方 面 的 数据 ， 例 如 死亡 率 及 平均 寿命 。 
口 经 合 组 织 统 计 ( OECD Statistics, http:Wstats.oecd.org/ ) 一 一 各 国 经 济 指标 数据 的 主要 来 源 。 
口 世界 银行 4 World Bank, http://data.worldbank.org/ ) 数 百 种 指标 数据 ， 而 且 便于 调用 。 
@ 政府 与 政治 
近年 来 开始 强调 数据 的 透明 公开 ， 因 此 许多 政府 机 构 都 公布 了 数据 ， 而 类 似 阳 光 基 金 会 
( Sunlight Foundation ) 这 样 的 组 织 也 豆 励 开发 和 设计 人 员 对 其 加 以 利用 。 目 从 data.gov 网 站 局 动 
后 ,很 多 政府 数据 被 集中 到 了 一 处 。 我 们 还 能 找到 许多 对 政治 家 起 到 鼻 论 监督 作用 的 非 官 方 机 
构 网 站 。 
口 美国 人 口 统计 局 (www.census.gov/ ) 一 一 大 量 的 人 口 统计 资料 。 
口 Data.gov (http:/data.gov/ ) 一 一 为 政府 机 构 提 供 的 数据 进行 编目 。 相 对 还 比较 新 , 但 拥有 
很 多 资料 来 源 。 




















可 浏览 全 美 橄 槛 球 联盟 (NEFL ) 所 有 球 




















同样 是 医疗 卫 























22 第 2 章 ”处 理 数 据 





口 Data.gov.uk (http://data.gov.uk/ ) 天 国 的 Data.gov。 

口 DataSF ( http://datasf.org/ ) 一 一 专门 提供 旧金山 市 的 相关 数据 。 

口 NYC DataMine (http://nyc.gov/data/ ) 和 DataSF 相 似 ， 不 过 对 应 的 是 纽约 市 。 

口 Follow the Money ( www.followthemoney.org/ ) 一 一 大 量 工 具 和 数据 集 ， 主 要 用 于 监督 、 
调查 美国 政府 的 开 文 。 


D OpenSecrets ( www.opensecrets.org/ ) 
2.1.3 ”自动 搜集 数据 


通 笛 我 们 都 能 找到 需要 的 数据 ,但 有 一 个 问题 会 很 麻烦 ， 那 就 是 它们 都 不 在 同一 个 地 方 、 同 
一 个 文件 里 ， 而 是 散落 在 多 个 网 站 、 多 个 HTML 页 面 中 。 这 时 候 应 该 怎么 办 呢 ? 

最 简单 二 接 、 但 也 最 耗 时 的 方法 就 是 访问 每 一 个 网 页 , 把 感 兴趣 的 数据 手工 输入 到 电子 表格 
中 。 如 末 你 需要 的 只 是 儿 个 页 面 ， 这 当然 没什么 大 不 了 的 。 

但 如 采 有 几 千 个 页 面 呢 ? 这 种 情况 要 人 花 的 时 间 可 了 就 长 了 了 上， 就 算 只 有 一 百 个 页 面 也 会 让 人 难 
以 义 受 。 如 果 这 个 过 程 能 日 动 完 成 ， 事情 束 会 轻松 得 多 ， 而 这 正 是 “ 目 动 搜集 ”的 含义 所 在 。 
通过 一 扣 代 人 码 ， 程 序 就 能 日 己 访 问 大 堆 页 面 ， 从 中 抓 取 知 要 的 内 容 并 存储 到 我 们 的 数据 库 或 文 
本 文件 中 。 














同样 提供 政府 在 元 选 等 方面 花 销 的 详细 数据 。 
































说 明 在 搜集 数据 时 ， 使 用 代码 自然 是 最 灵活 的 方式 ， 但 也 不 妨 使 用 类 似 Needlebase 或 者 
Able2Extract PDF 转换 器 这 样 的 工具 。 它 们 的 用 法 都 非常 简单 ， 而 且 能 为 你 节省 时 间 。 


1. 实例 : 自动 搜集 一 个 网 站 

要 想 了 解 如 何 目 动 搜 集 数据 , 最 好 的 方法 就 是 用 实例 来 说 明 。 假设 你 打算 下 载 某 个 地 区 去 年 
一 整 年 的 温度 数据 ， 但 你 找 不 到 合适 的 数据 来 源 ， 要 么 时 间 范 围 不 对 ， 要 么 不 是 你 想 要 的 地 区 。 
访问 天 气 网 站 ,一般 都 只 能 看 到 未 来 10 天 内 的 温度 预报 ， 而 这 和 你 想 要 的 有 很 大 距离 。 你 需要 的 
是 以 往 的 实际 温度 ， 而 不 是 有 关 示 来 的 预测 。 

幸运 的 是 ，Weather Underground 网 站 提供 了 以 往 的 温度 。 不 过 你 每 次 只 能 看 到 单 日 的 
这 了 对。 























入 Weather Undereround 的 网 址 是 http://wundersround.com。 





让 我 们 更 具体 一 些 , 假设 你 需要 查阅 的 是 纽约 州 西部 港 市 布 法 罗 。 在 Weather Undereround 风 
站 的 搜索 框 里 查询 “BUF”， 会 进入 布 法 罗 市 内 尼亚加拉 国际 机 场 的 天 气 页 面 (参见 图 2-1 )。 
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Local Time: 4:21 PM EDT (GMT -04)— Set My Timezone 





FREE Gift And 
FREE Shipping 


30-day, money-back guarantee. 


Add to My Favorites - 
Lat/Lon: 42.9° N 78.7° W (Google Map) 


Tropical Weather: Tropical Storm Paula (North Atlantic) Tropical Storm Megi (Western Pacific) 


图 Broadcast Network: Wunder \ 


Current Conditions 


Buffalo, New York (Airport) 
Updated: 20 min 50 sec ago 


n - 


Humidity: 
Dew Point: 


48 °F 
Light Rain Mist 
93% 
46 °F 


Wind: 二 mph from the NW 


Wind Gust: 
Pressure: 
Visibility: 
UV: 

Pollen: 


22 mph 
29.79 in (Steady) ol la ED Ea 
6.0 miles @ Local Radar 


1 out of 16 全 WunderMap 
.40 out of 12 -让 


Pollen Forecast new! Regional Radar 


Scattered Clouds 800 tt Local Satellite 
Scattered Clouds 2300 ft 二 ee 


Overcast 3600 ft 
(Above Ground Level) bE Trip Planner 
ba Weather Stations 


Clouds: 


Elevation: 722ft 
Rapid Fire Updates: 


@ Enable QO Disable 


Source for Current Conditions: 
@ PWS&Airport OO Airport Only 


» Weather History for This Location 





图 2-1 布 法 罗 市 的 气温 ， 


页 面 的 项 部 提供 了 该 地 区 当前 的 温度 和 


的 中 间 会 看 到 History & Almanac (历史 年 鉴 ) 面板 ， 如 图 2-2 所 示 。 我 们 可 以 在 下 拉 且 


菏 个 特定 的 日 期 。 


History & Almanac 


Max Temperature: 


5-Day Forecast for ZIP Code 14225 
Thursday Friday 


Customize Your Icons! 
Saturday 





fp wy -2 


4 3 oo 
56°F|43°F 52°F |41°F 54°F 40°F 
Rain Showers Chance of Rain Chance of Rain 


90% chance of 50% chance of 20% chance of 
precipitation precipitation precipitation precipitation 


Hourly Hourly Hourly Hourly Hourly 
Tomorrow is forecast to be Cooler than today. 


amazon.com 


»Shop Amazon.com 


54°F | 41°F 58°F 40°F 


Chance of Rain 


Partly Cloudy 20% chance of 


amMmazon 
天) 


Movies & TV Shows on DVD & Blu-Ray 


Nowcast as of 3:32 PM EDT on October 14, 2010 


Now 
The Short term forecast for western and central New York. 
Scattered light Showers and drizzle will continue to pass across 


来 自 Weather Undersground 网 站 


其 他 细节 ， 以 及 未 来 $ 天 的 天 气 





预报 。 往 下 拉 到 页 面 
单 中 选择 


Min Temperature: 





52 °F 
73 °F (1944) 
42 °F 


Normal 
Record 
Yesterday 


38 °F 
24 °F (1965) 
29 °F 


Yesterdays Heating Degree Days: 29 
Detailed History and Climate 





[October E> (1 {2010 E> 


图 2-2 通过 下 拉 菜 





选择 日 期 ， 查 看 历史 数据 
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在 下 拉 菜 单 中 设置 2010 年 10 月 1 日 ， 单 击 View 按 钮 。 你 会 看 到 一 个 不 同 的 视图 ， 显 示 了 这 个 
日 期 的 细 布 数据 ( 参见 图 2-3 )。 


rr 


Daily Summary 


« Previous Day [October 的 | [1 | [2010 1 (View ) NextDay » 


y Weekly Monthly Custom 


Actual: Average : Record : 

Temperature: 

Mean Temperature 56 °F 56 °F 

Max Temperature 62°F 65 °F 83 °F (1898) 

Min Temperature 49 °F 48 °F 34 °F (1993) 
Degree Days: 

Heating Degree Days 10 

Month to date heating degree days 

Since 1 July heating degree days 

Cooling Degree Days 

Month to date cooling degree days 

Year to date cooling degree days 

Growing Degree Days 
Moisture: 

Dew Point 

Average Humidity 

Maximum Humidity 

Minimum Humidity 
Precipitation: 

Precipitation 3.00 in (1945) 

Month to date precipitation 

Year to date precipitation 





图 2-3 单 日 的 温度 数据 


页 面 上 提供 了 温度 、 日 度 差 、 湿 度 、 降 雨量 等 众多 数据 ,但 现在 你 感 兴趣 的 只 是 每 天 的 最 高 
温度 。 你 可 以 在 第 二 行 第 二 列 找到 它 。 布 法 罗 市 在 2010 年 10 月 1 日 的 最 高 温度 是 62°F"。 

区 得 这 一 个 数据 确实 很 人 蚀 单 。 但 要 想 拿 到 2009 年 里 每 一 天 的 最 高 温度 数值 ， 应 该 怎么 办 ?最 
不 动脑 筋 的 办 法 就 是 不 断 在 下 拉 采 单 那里 设置 日 期 。 重 复 365 遍 ， 你 就 大 功 告 成 了 。 

这 个 过 程 有 意思 吗 ” 当 然 没 有 。 只 知 要 一 点 点 代码 和 各 门 ， 你 就 能 极 快 地 加 速 这 一 过 程 。 为 
了 做 到 这 一 点 ， 让 我 们 看 看 编程 语言 Python， 以 及 由 Leonard Richardson 开 发 的 晒 数 库 Beautiful 
Soupo 

在 下 面 几 段 中 读者 将 接触 到 代码 。 如 果 你 曾经 编 过 程序 ,阅读 它们 就 会 很 轻松 。 即 使 你 台 无 
编程 经 验 也 不 用 着 急 一 一 每 一 步 我 都 会 解释 清楚 。 很 多 人 都 把 代码 视 为 洪水 猛兽 、 不 天 越 雷 池 一 
步 ， 但 请 相信 我 ， 事 情 远 没有 那么 可 怕 。 哪 介 只 掌握 一 丁点 编程 技能 ， 都 会 市 来 更 多 的 可 能 性 ， 
从 而 更 加 目 由 地 处 理 数据 。 准 备 好 了 吗 ? 让 我 们 开始 吧 。 

自 完 ， 请 确定 你 的 计算 机 是 否 安 法 有 合适 的 软件 。 如 果 你 运行 的 是 Mac OS X， 那 么 Python 
应 该 已 经 预先 装 好 。 在 终端 Terminal ( 应 用 程序 里 面 ) 输入 “python” 启 动 (参见 图 2-4 )。 





















































J 摄氏 温度 ('C ) 与 华氏 温度 (“F ) 之 间 的 转换 公式 为 : C = (°F-32 ) /1.8。 一 一 编者 注 
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Terminal 一 bash 一 80x24 
ast login: Thu Oct 14 14:20:43 sbd 


3 
ild 5341)] on darwin 
9 dits" or "license" for more information. 





图 2-4 ”在 OS X 里 启动 Python 


如 果 你 的 计算 机 上 安 疫 的 是 windows 系 统 ， 那 么 可 以 访问 Python 网 站 ， 根 据说 明 来 下 载 和 
7 


向 访问 http:/python.org 来 下 载 和 安装 Python。 不 用 紧张 ， 这 并 不 难 。 | 























然后 , 你 需要 下 载 Beautiful Soup , 它 能 帮助 你 方便 快速 地 读 取 网 页 ,将 Beautiful Soup 的 Python 
文件 (后 级 名 为 .py ) 保存 在 你 将 要 保存 目 己 代码 的 目录 中 。 如 有 果 你 用 过 Python， 也 可 以 把 它 放 到 
你 目 己 的 库 文 件 路 径 里 面 ， 二 者 并 无 区 别 。 





| 因 访 问 www.crummy.com/software/BeautifulSoup/ 下 载 Beautiful Soup。 下 载 的 版 本 需要 和 你 所 
i‖ 用 的 Python 版 本 相对 应 。 





安 闪 了 Python 并 下 载 了 Beautiful Soup 之 后 , 打开 你 喜欢 的 文本 或 代 但 编辑 融 ( 例如 notepad )， 
新 建 一 个 文件 并 存 为 get-weather-data.py。 现 在 可 以 开始 写 代码 了 。 

首先 要 做 的 是 谈 取 显示 历史 天 气 信息 的 网 页 。2010 年 10 月 1 日 的 布 法 罗 市 天 气 数据 的 网 页 
URL 是 : 

www.wundereground.com/history/airport/KBUF/2010/10/1/DailyHistory.html?req_city=NA&req_ 
State=NAwreq_statename=NA 

在 这 个 URL 里 面 ， 去掉.html 后 面 的 东西 也 一 样 能 访问 这 个 页 面 , 所 以 让 我 们 把 它们 去 近 。 你 
现在 不 用 关心 这 些 。 

www.wundereround.com/history/airport/KBUF/2010/10/1/DailyHistory.html 

















Q 目前 Python 网 站 主要 提供 两 个 版 本 的 下 载 : Python 2.x 和 Python 3.x。 不 同 版 本 在 用 途 和 细节 上 都 存在 一 些 不 同 。 
本 书 作者 使 用 的 是 Python 2.x 版 本 。 
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我 们 发 现 ，URL 里 面 已 经 通过 /2010/10/1 标 明了 日 期 。 由 于 我 们 要 搜集 2009 年 整 年 的 温度 数 
据 ， 所 以 把 下 拉 菜 单 的 日 期 设置 为 2009 年 1 月 1 日 。 现 在 的 URL 变 成 了 : 

www.wundereround.com/history/airport/KBUF/2009/1/1/DailyHistory.html 

所 有 地 方 都 和 10 月 1 日 的 URL 完 全 一 致 ， 只 有 标识 日 期 的 位 置 例外 。 现 在 是 /2009/1/1。 有 意 
思 。 那么 ,如果 不通 过 下 拉 菜 单 ， 怎 样 才能 载 人 2009 年 1 月 2 日 的 页 面 呢 ? 很 明显 ， 只 用 改动 URL 
里 面 的 日 期 参数 就 可 以 了 ， 它 会 变 成 : 

www.wundereround.com/history/airport/KBUF/2009/1/2/DailyHistory.html 

在 浏览 右 里 输入 上 面 这 个 URL, 你 就 会 得 到 2009 年 1 月 2 日 的 天 气 数据 。 所 以 要 想 获 得 某 一 天 
的 天 气 数据 ， 你 要 做 的 就 是 修改 Weather Undersround 网 站 的 URL。 先 记 住 这 一 点 。 

现在 用 Python 来 读 取 单个 网 页 ， 通 过 下 面 一 行 代码 和 完 调 用 ur11ib2 也 数 库 : 

1mport urllibz 


要 在 Python 里 读 取 1 月 1 日 的 网 页 ， 调 用 urlopen 耶 数 。 


page = urll1ib2.urlopen("www.wunderground.com/history/airport/KBUF/2009/1/1/DailyHistory. 
html1") 


这 个 操作 会 把 该 URL 所 指向 的 页 面 中 的 所 有 HTML 都 载 人 进来 。 下 一 步 就 是 要 从 HTML 中 提 
取出 我 们 想 要 的 最 高 温度 值 。 而 Beautiful Soup 会 让 我 们 很 轻松 地 做 到 这 一 点 。 因 此 在 ur11ib2 后 
面 我 们 还 需要 从 Beautiful Soup 库 中 调用 BeautifulSoup 模 块 . 

from Beautifulsoup import BeautifulSoup 

在 文件 的 最 后 ， 用 Beautiful Soup 来 访 取 (也 就 是 剖析 ) 该 网 页 。 

soup = BeautifulSoupCpage) 

党 统 地 说， 这 行 代码 是 在 谈 取 HTML ( 其 本 质 上 也 就 古 一 个 长 字符 串 )， 然 后 以 一 种 易于 处 
理 的 方式 来 存储 页 面 上 的 元 素 〈 如 标题 或 图 片 )。 























说 明 Beautiful Soup 提 供 了 很 多 说 明文 档 和 简单 实例 。 如 果 对 任何 地 方 感到 困惑 ， 可 以 去 
Beautiful Soup 网 站 进行 查阅 (就 是 之 前 下 载 函 数 库 的 那个 网 址 )。 


比如 说 ， 如 采 你 想 找 到 该 页 面 上 的 所 有 图 片 ， 可 以 这 么 用 : 

images = Soup.flindaAl1C 1mng 

这 会 把 Weather Underground 页 面 上 所 有 用 <img /> 标签 显示 的 图 片 都 列 出 来 。 只 想 要 网 页 里 
的 第 一 张 图 片 ” 那 就 这 人 么 写 : 

first_ijmage = 1mages[0d] 

只 想 要 第 二 张 图 片 ? 把 0 改 成 1。 如 有 果 你 想 要 第 一 个 <img /> 标签 中 的 src 值 ,那么 就 这 么 写 : 

src = first_ imagel'src'] 


好 了 ,我 知道 你 不 想 要 图 片 。 你 只 想 要 一 个 数值 : 纽约 州 布 法 罗 市 在 2009 年 1 月 1 日 的 最 高 温 
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度 。 那 是 26*F。 用 soup 找 这 个 数值 比 找 图 片 要 稍微 三 烦 一 点 ,但 方法 是 一 样 的 。 你 只 需要 确定 在 
findA11) 里 面 应 该 放 什 么 就 行 了 。 我 们 来 看 一 2 

各 种 主流 浏览 器 都 支持 这 么 做 。 在 Firefox 里 ,可 以 右 击 页 面 ,选择 “查看 页 面 源 代码 ”( Page 
Source )， 当 前 页 面 的 HTML 束 会 在 一 个 新 窗口 中 出 现 ， 如 图 2-5 所 示 。 


Ne) Source of: http://www.wunderground.com/history/airport/KBUF/2009/1/1/DailyHistory.html 


<!DOCTYPE html PUBLIC “~//W3C//DTD XHTML 1.0 Transitional//EN" ‘http://Www.W3.0rg/TR/xhtmll/DTD/xhtmlil-transitional. 
<html xmlns="http://wwuw.w3.o0rg/1999/xhtml"> 
<head> 

<meta name=" description” content="Weather Underground provides weather information for worldwide locations, including ( 
<meta name="keywords" content='"Weather, Weather Underground, History, forecasts, current conditions, rain, snos 
<meta http-equiv="Refresh" content="1987;URL=/history/airport/KBUF/2009/1/1/DailyHistory.html?MR=]1" /> 
<meta name="ICBM" content="42.94027710, -78.73194122" /> 
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> 

<meta http-equiv="pics-label" content="' (pics-l1.1 "http://www.icra.org/ratingsv02.html" comment "ICRAonline v2.0" 1 gen true 1 
<title>History : Weather Underground</title> 

<link rel="stylesheet" type="text/css" href="http://icons-ecast.wxug.com/css/wu2 base.css?v=2010102701" /> 
<link rel=" stylesheet” type="text/css" href="http://icons-ecast.wxug.com/css/wu2 wrapper.css?v=2009121101" /> 
<link rel="stylesheet" type="text/css" href="http://icons-ecast.wxug.com/css/wu2 print.css?v=2009120402" media: 
<link rel="stylesheet" type="text/css" href="http://icons-ecast.wxug.com/css/wu2 history.css?v=2008121501" /> 

<link rel="search" href="/scripts/opensearchdescription.xml" type="application/opensearchdescription+xml" title="Weatht 
<script language="javascript" type='"text/javascript" src="http://icons-ecast.wxug.com/scripts/mootools-wu-l1.1]1 
<script type="text/javascript" src="http://ajax.googleapis.com/ajax/libs/jquery/l.4.2/ijquery.min.ijs"></script> 
<script type="text/javascript" src="http://ajax.googleapis.com/ajax/libs/jqueryui/1.8.2/jquery-ui.min.ijs"></sc] 
<script type="text/javascript"> 
$.noConflict!(); 
</script> 
<script type="text/javascript" src="/scripts/autocomplete.js?v=]1.]1"></script> 
<script type="text/javascript" src="http://icons.wxug.com/scripts/slimbox.js"></script> 
<link rel="stylesheet" type="text/css" href="http://icons.wxug.com/css/slimbox.css" media="screen" /> 

<script language="javascript" type="text/javascript"> 

ee 


function bodyOnLoad!() 


/i/--> 
</script> 
<script language="javascript" type="text/javascript" src="http://icons-ecast.wxug.com/scripts/tablesort.js"></s 
<script type='"text/javascript" src="http://static.travelscream.com/scripts/TSWidgetl].ijs?v=1.2"></script> 
</head> 
<!-- Iterate ad calls 


CAMPAIGN ~ GOAS-00068 Box - 








图 2-$ Weather Underground 页 面 的 HTML 源 代码 


往 下 拉 到 显示 maximum temperature (最 高 温度 ) 的 地 方 ,， 或 者 直接 搜索 该 关键 词 ， 这 种 方 
法 更 快 。 找 到 26， 它 就 是 我 们 要 提取 的 内 容 。 
这 一 行 有 一 对 封闭 的 <span> 标 签 ， 其 中 注 明 了 类 名 是 nobr。 这 就 是 关键 。 我 们 可 以 找到 该 
页 面 中 所 有 和 带 有 nobr 类 的 元 素 。 
nobrs = soup.findAlltattrs={"class":"'nobr"]}) 
和 之 前 一 样 ， 只 要 是 珊 nobr 类 的 元 系 都 会 被 列 出 来 。 而 我 们 感 兴趣 的 是 其 中 的 第 $ 个 ， 可 以 
通过 如 下 方法 找到 : 


print nobrs[4] 
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这 个 操作 带 来 的 是 整个 元 素 ， 但 我 们 只 想 要 26 这 个 数字 。 在 带 有 nobr 类 的 <span> 标 签 中 ， 


还 有 男 一 个 <span> 标 签 ， 然 后 才 是 26。 那 么 我 们 应 该 这 样 写 : 


集 。 


dayTemp = nobrs[4].span.string 
print dayTemp 


啊 哈 ! 从 HTML 网 页 上 我 们 搜集 到 了 第 一 个 数值 。 下 一 步 就 是 在 2009 年 的 所 有 页 面 中 进行 搜 
要 做 到 这 一 点 ， 让 我 们 回 到 最 开始 的 URL。 
www.wundereround.com/history/airport/KBUF/2009/1/1/DaillyHistory.html 

还 记得 手工 修改 URL 来 获得 想 要 的 日 期 吧 ? 之 前 的 代码 是 针对 2009 年 1 月 1 日 的 。 如 末 你 想 要 


2009 年 1 月 2 日 的 网 页 ， 只 需 对 URL 的 日 期 部 分 进行 相应 改动 即 可 。 为 了 获得 2009 年 的 所 有 数据 ， 
需要 读 取 每 一 个 月 (1~12) 以 及 每 个 月 中 的 每 一 天 。 以 下 是 市 有 注释 的 脚本 。 把 它 保 存 到 你 的 
get-weather-data.py 文 件 中 。 











import urllib2 
from BeautifulSoup import BeautifulSoup 


# 创建 /打开 一 个 名 为 wunder-data.txt 的 文件 (将 会 是 一 个 以 过 号 分 隔 的 文本 文件 ) 
f = Dopenk'wunder-data.txt'，' WwW) 


# 按 月 和 日 进行 循环 访问 
for m in range(tl, 13): 
for d in range(l, 32): 


d > 28) 
break 
ejJif Cm in [4, 6, 9, 11 and d > 30): 
break 


# 打开 wunderground .com 的 各 个 URL 

timestamp = 2009' + str{m) + strdd) 

print "Getting data for ”+ timestamp 

Url = "http://www, wunderground,com/history/airport/kBUF/2009/" + 
Strkn + A" + Str(d) + “DailyHistory.html'" 

page = urllib2.urlopenturl) 


# 从 页 面 上 获取 温度 值 
soup = BeautifulSsouptpage) 


# dayTemp = soup.body.nobr.b.string 
dayTemp = soup.findAlltattrs={"class":"nobr"})[].span.string 


# 将 月 份 格式 化 为 时 间 稚 记 
if lencstrem)) < 2: 
mStamp = 'O + str(m) 
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else: 
mStamp = strcim) 


# 将 日 期 格式 化 为 时 间 蕉 记 
if len(str(d)) < 2: 
dstamp = '0' + str(d) 
else; 
dstamp = strfdgd) 


# 创建 时 间 戳 记 
timestamp = '2009' + mStamp + dsStamp 


# 将 时 间 戳 记 和 温度 写 入 到 文本 文件 中 
f.wrTtettTmestamp + ',' + dayTemp + An 


# 数据 获取 结束 ! 关闭 文件 。 

f.closed) 

你 应 该 认得 前 两 行 代 码 ， 它 们 调用 了 必需 的 库 文件 urllib2 和 BeautifulSoup。 
1mport urllibz 

from BeautifulSoup import BeautifulSsoup 


在 此 之 后 ， 用 open(0) 函数 新 建 一 个 名 为 wunder-data.txt 的 文本 文件 ， 并 赋予 其 写 权 限 。 你 搜 
集 的 所 有 数据 都 会 被 存储 到 这 个 文本 文件 里 ， 和 你 的 脚本 文件 处 于 同一 个 文件 目录 。 

## 创建 /打开 一 个 名 为 Wunder-data.txt 的 文件 〈 将 会 是 一 个 以 运 号 分 隔 的 文本 文件 ) 

f = open('wunder-data.txt', 'w') 

下 面 的 代码 中 使 用 了 一 个 for 循 环 ， 告 诉 计算 机 要 读 取 每 个 月 的 数据 。 月 份 数字 存储 在 m 变 
量 中 。 其 后 的 循环 告诉 计算 机 读 取 每 个 月 中 的 每 一 天 。 日 期 数字 储存 在 d 变 量 中 。 

# 按 月 和 日 进行 循环 访问 

for m in range(l, 13): 

for d in range(l, 32): 






































隐 查 阅 Python 说 明 ， 了解 更 多 循环 的 工作 原理 : http://docs.python.org/reference/compound_ 


stmts.html 。 








注意 ， 我 们 使 用 了 range (1,， 32) 让 程序 按 天 数 循环 。 这 表示 你 可 以 遍历 1 ~ 31。 然 而 并 不 是 
每 一 个 月 都 有 31 天 。2 月 只 有 28 天 ， 而 4 月 、6 月 、9 月 和 11 月 都 只 有 30 天 。 没 有 4 月 31 日 的 温度 数 
据 ， 因 为 这 一 天 根本 就 不 存在 。 所 以 需要 根据 月 份 采 取 相 应 的 行动 。 如 果 当 前 是 2 月 ， 在 日 期 超 
过 28 的 时 候 就 应 该 中 断 (break ) 并 前 进 到 下 个 月 。 如 果 你 打算 搜集 多 个 年 份 的 数据 ， 还 需要 添 
加 if 声 明 以 便 考虑 国 年 的 情况 。 

与 之 类 似 ， 如 果 不 是 2 月 而 是 4 月 、6 月 、9 月 或 11 月 ,在 当前 日 期 超过 30 的 时 候 也 应 该 中 断 
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(break ) 并 前 进 到 下 个 月 。 


# 检查 该 月 是 否 已 经 完成 

if tm== 2 and d > 28): 
break 

elif Cm in [4, 6, 3, 11] and d » 30): 
break 


下 面 几 行 代码 也 应 该 很 眼熟 。 我们 曾 通 过 它们 从 Weather Underground 网 站 搜集 过 单个 页 面 的 
数据 。 唯 ee a le 这 两 个 地 方 不 应 该 是 静态 的 。 pte 
载 和 人 页面， 调用 Beautiful Soup 来 分 析 页 面 中 的 内 容 ， 然 后 通过 查找 第 5 个 nobr 类 来 提取 最 高 温 
度 值 。 























# 打开 wunderground . com 的 各 个 URL 

url = "http://www.wunderground.com/history/airport/KBUF/2009/" + 
strtmy + "/" + str(td) + “/DailyHistory.html" 

page = urllib2.urlopencurl) 


# 从 页 面 上 获取 温度 值 

soup = BeautifulSoup(page) 

# dayTemp = soup.body.nobr.b.string 

dayTemp = soup.findAll(attrs={’class":"nobr"})[5].span.string 


剩 下 的 一 块 代 码 将 根据 年 份 、 月 份 和 日 期 来 组 成 时 间 戳 记 。 时 间 和 戳记 的 格式 是 yyyymmdd 。 
当然 ， 任 何其 他 格式 也 都 没 问 题 。 
# 将 月 份 格式 化 为 时 间 玲 记 
if len(str(m)) < 2: 
mStamp = '0" + str(m) 


else: 
mStamp = str(m) 


# 将 日 期 格式 化 为 时 间 玲 记 
if len(str(d)) < 2: 
dStamp = '0" + str(d) 
else: 
dStamp = str(d) 


# 创建 时 间 稚 记 

timestamp = '2009' + mStamp + dStamp 

最 后 ， 温 度 值 和 时 间 戳 记 都 会 通过 write (0) 函数 写 人 到 wunder-data.txt 文 件 中 去 。 
# 将 时 间 稚 记 和 温度 写 入 到 文本 文件 中 

fwritettimestamp + '," + dayTemp + An 

在 所 有 月 份 和 日 期 都 获取 完成 后 ， 使 用 close (来 天 闭 wunder-data.txt 文 件 。 

# 数据 获取 结束 ! 关闭 文件 

f.closel) 


剩 下 的 事情 就 是 运行 代码 了， 在 终 站 输入 : 
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$ python get-weather-data.py 

运行 需要 一 段 时 间 , 请 保持 耐心 。 计算 机 在 这 个 过 程 中 实际 上 读 取 了 365 个 网 页 , 以 对 应 2009 
年 的 每 一 天 。 在 脚本 运行 结束 后 在 你 的 工作 路 径 下 会 出 现 一 个 名 为 wunder-data.txt 的 文件 。 打 开 
它 就 会 看 到 你 想 要 的 数据 ， 以 逗号 分 隔 。 第 一 列 是 时 间 和 戳记， 第 二 列 是 温度 值 。 看 上 去 应 该 类 似 
图 2-6 中 的 样子 。 























Terminal — less — 80x24 


26696123 ,42 


under-data .txt 


图 2-6 ”搜集 到 的 整整 一 年 的 温度 数据 





2. 案例 归纳 

我 们 从 Weather Underground 网 站 上 搜集 到 了 天 气 数 据 ， 而 对 于 其 他 数据 来 源 ， 也 可 以 借鉴 这 
个 过 程 。 典 型 的 目 动 搜集 数据 包括 三 个 步骤 : 

(1) 找 出 规律 ; 

(2) 循环 ; 

(3) 存储 数据 。 

在 上 面 这 个 例子 中 ,我 们 必须 找到 两 个 规律 。 第 一 个 在 URL 里 面 , 第 二 个 则 是 在 网 页 中 找到 
具体 的 温度 值 。 要 想 载 和 2009 年 不 同日 期 的 网 页 ,需要 改动 URL 中 的 月 份 和 日 期 部 分 。 而 温度 值 
则 位 于 HTML 中 的 第 5 个 nobr 类 标签 中 。 如 果 在 URL 中 没有 明显 的 规律 ， 可 以 换个 角度 想 想 怎样 
得 到 所 有 这 些 页 面 的 URL。 也 许可 以 看 一 下 网 站 地 图 , 或 者 通过 搜索 引擎 查阅 网 站 目录 。 无 论 如 
何 ， 你 必须 知道 所 有 数据 页 面 的 URL。 

在 找到 规律 之 后 ,我 们 要 进行 循环 处 理 。 也 就 是 说 ,需要 通过 程序 访问 所 有 的 页 面 , 载 入 这 
些 页 面 ,然后 读 取 并 分 析 。 例子 中 我 们 用 到 的 是 Beautiful Soup, 它 能 让 Python 更 容易 地 分 析 XML 
和 HTML。 如 有 果 你 选择 的 是 其 他 编程 语言 ， 也 应 该 有 类 似 的 函数 库 。 

最 后 ,我 们 需要 把 数据 存储 在 某 个 地 方 。 最 简单 的 办 法 是 把 数据 存储 为 纯 文本 文件 ， 以 逗号 
作为 分 隔 符 ， 但 如 有 果 你 有 目 己 的 数据 库 ， 也 可 以 存 到 那里 面 。 

有 些 网 页 中 显示 的 数据 是 通过 JavaScript 来 调用 的 , 这 种 情况 就 会 麻烦 一 些 , 但 整个 搜集 的 过 
程 还 是 一 样 。 
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2.2 ” 贡 置 效 据 的 格式 


不 同 的 可 视 化 工具 文 持 不 同 的 数据 格式 , 而 且 所 用 到 的 结构 也 会 根据 你 打算 讲 的 故事 而 有 所 
差异 。 所 以 ， 你 的 数据 结构 越 灵 活 ， 市 来 的 可 能 性 也 会 越 多 。 运 用 数据 格式 化 工具 ， 再 加 上 一 点 
编程 搁 巧 ， 你 就 能 为 数据 安排 各 种 不 同 的 格式 、 满 足 各 种 需求 。 

最 简单 的 办 法 当然 是 找 一 个 程序 员 来 带 你 做 数据 的 分 析 和 格式 化 工作 ,但 你 总 十 得 看 人 脸 
色 。 这 一 后 在 任何 项 目的 早期 阶段 尤为 明显 , 在 此 阶段 ,循环 处 理 和 数据 探索 对 于 可 视 化 设计 来 
说 都 是 非常 关键 的 。 说 名 实话 ， 如 末 我 是 用 人 部 门 ， 我 也 豆 欢 招收 那些 了 解 如 何 处 理 数据 的 人 ， 
而 不 是 在 每 个 项 目 初 期 神 需 要 别人 带 助 的 人 。 

















我 对 格式 化 的 理解 

当 我 在 高 中 接触 统计 学 时 ， 需 要 的 数据 都 有 着 清楚 的 、 纸 阵 式 的 格式 。 我 要 做 的 就 是 把 
其 中 一 些 数字 导入 到 Excel 表 格 或 者 当时 最 时 芭 的 图 形 计算 器 中 去 (上 课时 用 这 玩意 看 似 在 认 
真 计算 什么 , 其 实 大 多 时 候 都 在 玩 俄 罗斯 方块 )。 到 大 学 后 也 是 如 此 ， 因 为 我 学 习 的 是 数据 分 
析 理 论 与 技巧 , 老师 们 不 会 在 原始 的 、 未 处 理 过 的 数据 上 浪费 时 间 。 数 据 一 直 都 以 合适 的 格 
2 

考虑 到 当时 的 学 习 重 点 和 课业 进度 限制 ， 这 很 容易 理解 。 但 开始 研究 生 课 程 之 后 ， 我 意 
识 到 真实 世界 里 的 数据 从 来 都 不 会 按 自己 需 要 的 格式 呈现 。 你 会 遇 到 各 种 情况 ， 例 如 某 个 数 
值 莫 名 其 妙 的 丢失 、 标 记 前 后 矛盾 、 没 有 任何 上 下 文 背 景 ， 或 者 千奇百怪 的 笔 误 。 数 据 通常 
都 散落 在 多 个 表格 中 ， 但 我 们 需要 的 是 一 个 包含 所 有 数据 的 表格 ， 而 且 带 有 各 自 的 名 称 或 独 
立 的 ID 号 。 

在 我 开始 可 视 化 工作 之 后 也 是 如 此 。 而 且 格式 化 变 得 越 来 越 重要 ,因为 我 希望 用 手中 的 数 
据 做 更 多 的 事情 。 如 今 , 我 在 数据 格式 化 上 花 的 精力 和 可 视 化 一 样 多 ， 有 时 候 其 至 超过 了 可 视 
化 的 时 间 。 秆 一 听 这 似乎 有 点 奇怪 ,但 你 会 发 现 当 所 有 的 数据 都 经 过 精心 组 织 后 ， 对 图 形 的 设 
计 会 变 得 更 加 简单 ， 就 像 回 到 了 高 中 的 入 门 课 程 一 样 。 


下 面 将 介绍 各 种 数据 格式 、 处 理 格式 的 工具 以 及 一 些 编程 知识 。 编 程 中 涉及 的 逻辑 思路 和 之 
前 搜集 数据 时 所 用 的 几乎 相同 。 


2.2.1 数据 格式 


大 多 数 人 都 习惯 用 Excel 来 处 理 数 据 。 如 采 你 打算 从 分 析 到 可 视 化 一 下 都 用 这 款 软 件 ， 那 么 
没 问题 。 但 如 有 果 你 想 跨 出 这 个 轿子， 就 需要 部 悉 一 下 其 他 数据 格式 。 这 些 格式 之 所 以 存在 ， 是 为 
了 让 你 的 数据 机 妖 可 读 , 也 就 是 设置 成 计算 机 能 够 理解 的 格式 。 使 用 何 种 格式 取决 于 你 的 意图 和 
所 用 的 可 视 化 工具 ， 不 过 以 下 3 种 格式 基本 上 可 以 满足 所 有 需求 : 市 分 隅 符 的 文本 、JavaScript 对 
象 表示 法 (JavaScript Object Notation ) 和 可 扩展 标记 语言 ( eXtensible Markup Laneguage )。 
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1. 带 分 隔 符 的 文本 

很 多 人 都 很 误 悉 市 分 隔 符 的 文本 。 我 们 在 前 面 一 闻 的 例子 中 就 创建 过 以 逗号 分 隔 的 文本 文 
件 。 如 采 把 数据 集 看 成 是 按 行 和 列 来 分 布 , 那么 分 隔 符 文 本 就 是 用 分 隅 符 来 分 开 每 一 列 。 分 隔 符 

- 般 用 的 是 瑞 文 逗号 (半角 字符 )， 也 可 以 是 制 表 符 tab ， 或 者 是 空格 、 喘 文 分 号 、 冒 号、 斜 杠 等 
任何 你 喜欢 的 字符 。 不 过 逗号 和 tab 是 最 常见 的 。 

分 隅 符 文 本 应 用 广泛 ， 可 以 被 大 多 数 电 子 表格 程序 阅读 ， 例 如 Excel 或 者 Google Documents。 
我 们 也 可 以 把 电子 表格 输出 成 分 隔 符 文本 。 如 采 你 要 使 用 多 个 工作 表格 , 通常 就 会 有 多 个 分 隔 符 
文件 ， 除 非特 殊 指 定 。 

这 种 格式 也 便于 与 其 他 人 共 圣 ， 因 为 它 无 害 依 赖 于 任何 特定 程序 。 

2. JavaScript 对 象 表示 法 (JSON ) 

很 多 网 页 API 都 适用 于 这 种 格式 。 它 既 能 够 让 计算 机 理解 ， 叉 便于 人 类 阅读 。 不 过 如 果 你 眼 
前 的 数据 过 多 ， 采 太 久 可 能 会 头 坚 目眩 。 该 格式 基于 JavaScript 表 示 法 ， 但 并 不 依赖 于 这 种 语言 。 
JSON 中 有 许多 规格 说 明 ， 但 只 用 和 擎 握 一 些 基础 区 能 满足 大 部 分 需要 。 

JSON 利 用 关键 字 和 值 ， 并 且 把 数据 条 目 作 为 对 象 来 处 理 。 如 果 我 们 把 JSON 数 据 转化 成 逗号 
分 隅 数据 ( Comma-Separated Value，CSV )， 那 么 每 个 对 象 都 会 占 一 行 。 

大 家 将 会 在 后 文中 看 到 ， 有 很 多 应 用 、 语 言 和 因数 库 都 支持 JSON 输 入 。 如 果 你 打算 设计 便 
于 互联 网 传播 的 数据 图 形 ， 就 得 了 解 一 下 这 种 格式 。 























也 访 问 http://json.org 阅 读 JSON 的 完整 说 明 。 你 不 必 了 解 这 一 格式 的 所 有 细节 ,但 当 你 需要 使 
用 某 个 JSON 数 据 源 时 ， 它 还 是 很 管用 的 。 


3. XML 

XML ( 可 扩展 标记 语言 ) 是 另 一 种 互联 网 上 的 流行 格式 ， 党 被 用 于 在 API 间 传递 数据 。XML 
分 为 很 多 类 型 ， 规 格 说 明 也 不 少 , 但 从 最 基本 的 层面 来 看 ， 它 就 是 一 个 文本 文件 ， 其 中 的 值 都 封 
闭 在 各 种 标签 之 内 。 比 如 说 ， 人 们 用 于 订阅 各 种 博客 RSS ( 如 FlowingData ) 的 feed 就 是 一 个 XML 
文件 ， 如 图 2-7 所 示 。 

目前 的 RSS 列 表 中 , 数据 条 目 都 被 封闭 在 <item></item> 标 签 中 , 每 一 条 都 带 有 各 自 的 标题 、 
描述 、 人 作者、 发布 日 期 以 及 其 他 属性 。 

XML 相对 比较 容易 用 晒 数 库 来 分 析 , 例如 Python 里 面 的 Beautiful Soup。 在 本 书后 面 的 内 容 中 ， 
大 家 会 更 加 熟悉 XML 、CSV 以 及 JSON。 
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r 
1 


心 view-source:flowingdata.co 


和 了 > 名 省 | 外 view-source:flowingdatacom/feed/ 


<?xml] version="1.0" encoding="UTF-8"?> 

<rss version="2.0" 
xmlns:content="http://purl.org/rss/l1.0/modules/content/" 
xmlns:wfw="http://wellformedweb.org/CommentAPI/" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:atom="http://Wwww.w3.0rg/2005/Atom" 
xmlns:sy="http://purl.org/rss/l1.0/modules/syndication/" 
xmlns:slash="http://purl.org/rss/l1.0/modules/slash/" 
> 


<channel> 
<title>FlowingData</title> 
<atom:link href="http://flowingdata.com/feed/" rel="self" type="application/rsst+xml" /> 
<link>http://flowingdata.com</link> 
<description>Strength in Numbers</description> 
<lastBuildDate>Fri, 31 Dec 2010 07:30:49 +0000</lastBuildDate> 
<language>en</language> 
<sy:updatePeriod>hourly</sy:updatePeriod> 
<sy:updateFregquency>1l</sy:updateFrequency> 
<generator>http://wordpress.org/?v=3.0.4</generator> 
<atom:link rel="next" href="http://flowingdata.com/feed/?page=2" /> 


<item> 
<title>The real Inception flowchart by Nolan</title> 
<link>http://flowingdata.com/2010/12/30/the-real-inception-flowchart-by-nolan/</link> 
<comments>http://flowingdata.com/2010/12/30/the-real-inception-flowchart-by-nolan/#comments</comments> 
<pubDate>Fri, 31 Dec 2010 05:23:39 +0000</pubDate> 
<dc:creator>Nathan Yau</dc:creator> 

<category><![CDATA[ Infographics]]></category> 


<guid isPermaLink="false">http://flowingdata.com/?p=13550</guid> 

<description><![CDATA[<p><a href="http://flowingdata.com/2010/12/30/the-real-inception-flowchart-by- 
nolan/"><img width="575" height="444" src="http://flowingdata.com/wp-content/uploads/2010/12/inception-flowchart-by- 
nolan-575x444.gif" class="attachment-medium wp-post-image" alt="inception flowchart by nolan" title="inception flowchart 
by nolan" /></a></p>Inception was a complex film, so there was understandably some confusion over the levels and who was 
where. A couple of flowcharts tried to explain, but there was still some debate. So here is 七 he flowchart to trump all 
other Inception flowcharts. It's by Christopher Nolan himself. Any questions? [In Contention via Waxy] Inception dream 
[(...]]]></description> 

<content:encoded><![CDATA[<p><a href="http://flowingdata.com/2010/12/30/the-real-inception- 

flowchart-by-nolan/"><img width="575" height="444" src="http://flowingdata.com/wp-content/uploads/2010/12/inception- 
flowchart-by-nolan-575x444.gif" class="attachment-medium wp-post-image"” alt="inception flowchart by nolan” 
title="inception flowchart by nolan” /></a></p><p>Inception was a complex film, so there was understandably Some 
confusion over the levels and who was where. A couple <a href="http://flowingdata.com/2010/08/07/another-view-of- 
inception-with-the-kicks-this-time/">of</a> <a href="http://flowingdata.com/2010/08/04/inception-dream-levels-explained- 
in-flowchart/">flowcharts</a> tried to explain, but there was still some <a 
href="http://flowingdata.com/2010/08/04/inception-dream-levels-explained-in-flowchart/#comments">debate</a>. So here is 
<a href="http://incontention.com/2010/12/07/christopher-nolans-interview-with-brother-jonathan-in-the-inception-shooting- 
script/">the flowchart to trump all other Inception flowcharts</a>. It's by Christopher Nolan himself. Rny questions?</p> 
<p>[<a href="http://incontention.com/2010/12/07/christopher-nolans-interview-with-brother-jonathan-in-the-inception- 
shooting-script/">In Contention</a> via <a href="http://waxy.org">Waxy</a>]</p> 





图 2-7 FlowingData 网 站 RSS 的 feed 片 段 


2.2.2 ”格式 化 工具 


在 几 年 前 ， 人 们 需要 写 一 些小 脚本 才能 对 数据 进行 处 理 和 格式 化 。 在 写 了 儿 次 脚本 后 ,你 就 
会 注意 到 其 中 的 逻辑 规律 ， 所 以 即使 每 逢 新 的 数据 集 都 需要 写 新 的 代码 ， 也 并 不 是 什么 难事 。 不 
过 每 次 都 这 样 做 也 确实 挺 花 时 间 。 季 而 随 着 数据 处 理 量 的 逐渐 增 大 , 有 人 开发 了 一 些 工 具 来 代 符 
我 们 进行 这 种 千篇一律 的 手工 劳动 。 

1. Google Refine 

Google Refine 是 Freebase Gridworks 的 进化 版 本 。Gridworks 最 初 是 Freebase 这 个 开放 数据 平台 
的 内 部 工具 ， 但 是 后 来 Freebase 被 Google 收 购 ， 所 以 Gridworks 也 就 换 了 名 字 。 从 本 质 上 来 说 ， 
Google Refine 就 是 易 用 性 更 强 、 功 能 更 多 的 Gridworks 2.0 版 本 ( 参见 图 2-8 )。 
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UFO sightings ~- Google Re 鞭 


0 





和 CC 省 | 人 127.0.0.1:33331project?project=1417518914391 六 次 A 





Google refine UFO sightings Permai: Open... Exportv Help 


Facet | Filter Undo/Redos 61393 rows Extensions: Freebase ~ 
Refresh Reset All . Remove All Show as: rows records Show: 5 10 25 50 rows 1-50 next ，last » 


change reset vv All v time sighted time reported 了 location 了 Column3 了 Column4 YY Column5 下 Column6 " 
19951009 19951009 lowa City, IA 
19951010 19951011 Miwaukee, 
WI 


19950101 19950103 Shetton, WA 


19950510 19950510 Columbia, 
MO 


19950611 19950614 Seattle, WA 


19951025 19951024 Brunswick 
County, ND 


19950420 19950419 Fargo, ND 
19950911 19950911 Las Vegas, 
NV 


19950115 19950214 Morton, WA 
19950915 19950915 Redmond, 
WA 


19940801 19950220 Renton, WA 
19950722 19950724 Springfield, IL 
19950611 19950612 Sharon, MA 
19950821 19950823 Laporte, WA 
19950416 19950416 Vila Rica, GA 


19950207 19950207 Raymond, 
WA 


19951118 19951117 Orlando, FL 
19950610 19950611 Glade Spring, 
VA 


19950514 19950514 Siver Beach, 


19950204 19950204 Lewiston, MT 


19950812 19950911 Fort Myers 
Beach, FL 


19951106 19951106 St. Augustine, 
FL 


19950628 19950628 Lisbon, ME 
19950314 19950314 Fontana, CA 
19950306 19950307 Hiltop, NJ 
19950506 19950516 Lebanon, OR 
19950730 19950730 Newtown, CT 
19950822 19950822 Prescott, AZ 
19950207 19950207 OQuicane WA 





图 2-8 Google Refine 的 用 户 界 面 


它 会 在 你 的 时 面 运 行 (但 依然 会 通过 浏览 右 )， 这 一 点 很 梭 ， 因 为 我 们 无 害 担 心 私 密 数据 会 
上 上传 到 Google 服 务 锅 去 ， 所 有 的 处 理 都 在 目 己 的 计算 机 上 进行 。Refine 也 是 开源 的 ， 如 果 你 有 需 
求 ， 也 可 以 将 它 扩展 到 你 目 己 的 应 用 中 去 。 

在 运行 Refine 时 ， 我 们 会 看 到 一 个 唤 悉 的 电子 表格 界面 。 数 据 都 按照 行 和 列 的 形式 呈现 ， 便 
于 排序 或 者 搜索 某 个 值 ， 同 时 也 能 很 轻松 地 找 出 数据 中 的 矛盾 之 处 从 而 加 以 改进 。 

比如 说 , 你 需要 建立 一 个 自己 家 厨房 的 财产 清单 。 在 Refine 中 载 人 数据 后 很 快 就 能 发 现 笔 误 、 
分 类 不 一 致 等 前 后 矛盾 的 地 方 。 也 许 fork (叉子 ) 无 音 中 被 拼 成 了 “frk”,， 或 者 你 突然 想到 应 该 
把 所 有 的 叉子 、 勾 子 和 短刀 全 部 归 为 “和 餐具 ”类 中 。 在 Refine 里 面 这些 都 很 容易 办 到 。 如 采 你 不 
喜欢 刚刚 作出 的 改动 ， 用 undo (撤销 ) 命令 就 能 让 数据 集 恢 复原 状 。 

要 想 再 深入 一 步 , 你 还 可 以 导入 其 他 数据 来 源 ( 比如 Freebase 里 的 数据 集 )， 从 而 创建 一 个 更 
大 的 数据 集 。 

Google Refine 是 一 款 很 好 的 工具 , 它 功 能 强大 , 而 且 提 供 免 费 下 载 。 强烈 建议 大 家 至 少 一 试 。 
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了 访问 http:/code.google.comy/p/google-refine/， 下 载 开 源 的 Google Refine 并 浏览 教程 ， 学 习 如 
何 最 大 限度 地 利用 这 款 工 具 


7、 O 〇 


2. Mr. Data Converter 

我 们 常常 会 发 现 ， 所 有 的 数据 都 在 Excel 里 面 ， 但 却 需 要 把 它们 转换 成 其 他 格式 。 在 为 互联 
网 创建 数据 图 时 这 种 情况 尤其 常见 。 你 可 能 已 经 把 Excel 电 子 表格 输出 为 CSV 了 ， 但 如 果 需 要 其 
他 格式 该 怎么 办 ”Mr. Data Converter 可 以 帮助 你 。 


ES 


Mr. Data Converter 是 一 蒜 人 简单 、 人 免费 的 工具 ,创造 者 是 Shan Carter,《 纽 约 时 报 》 的 一 名 图 形 
编辑 。Carter 的 主要 工作 是 为 报纸 的 在 线 版 本 创建 交互 式 数据 图 ， 所 以 他 经 党 得 把 数据 转换 成 他 
的 软件 所 文 持 的 格式 。 难 怪 他 制作 了 这 样 一 和 工具 。 

图 2-9 显 示 了 这 款 工 具 的 界面 , 非常 简单 吻 用 。 你 所 要 做 的 只 是 把 Excel 里 面 的 数据 复制 粘贴 到 
页 面 上 方 的 文本 框 里 面 ， 然 后 选择 想 要 的 输入 格式 即 可 。 有 XML 、JSON 以 及 其 他 多 种 格式 可 选 。 

















_ Mr Data Converter 


© 祝 CG 全 | © www.shancarter.com/data_ converter/ 


MTr. Data 
COhVerter 


| will convert your Excel data into one of 


COLOR DATE 

blue Sep. 25, 2009 

“green blue™ Sep. 27, 2Z009 
orange Sep. 29, 2009 

JSON and XML : 2 


several web-friendly formats, including HTML， 


Source available on github. 


SETTINGS 


区 First row is the hearier 


ndent with: @ tabs 


ON hE XML — Nodes 人 


<?xml version="1.0” encoding="UTF-8" ?> 
<rOWwSs> 
<TOW> 
<NAME>Alan</NAME> 
<VALUE>12</VALUE> 
<COLOR>blue</COLOR> 
<DATE>Sep. 25, 2009</DATE> 
</IOW> 
TANW> 
<NAME>Shan</NAME> 
<VALUE>13</VALUE> 
<COLOR>green\tblue</COLOR> 
“DATE~Sep. 27, 2009-/DATE~ 
</row> 
<row> 
<NAME>John< /HAME> 
<VALUE>45</VALUE> 
<COEOR>Orange<y7COLOR> 
<DATFE>Sep. 29, 2009</DATE> 








图 2-9 ”Mr. Data Converter 让 数据 格式 之 间 的 转换 变 得 更 加 容易 
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如 果 你 想 对 Mr. Data Converter 加 以 扩展 ， 它 的 源 代 码 同 样 也 是 开放 的 。 


也 访 问 http:/www.shancarter.com/data_converter/ 试 用 Mr. Data Converter， 将 你 的 Excel 电 子 表 
格 转 换 为 Web 友 好 的 格式 。 或 者 到 github 下 载 源 代码 , 地址 是 https://github.com/shancarter/Mr- 


Data-Converter。 





3. Mr. People 


受到 Mr. Data Converter 的 启发 , 《纽约 时 报 》 的 图 形 副 主编 Matthew Ericson 创 建 了 Mr People。 
和 Mr Data Converter 一 样 ，Mr. People 也 人 允许 在 文本 框 中 复制 、 粘 贴 数据 ， 然 后 进行 分 析 和 提取 
工作 。 不 过 正如 Mr. People 这 个 名 字 所 暗示 的 那样 ， 它 主要 用 于 分 析 姓 名 。 

也 许 你 手 里 有 一 长 列 姓名 数据 ,你 想 识 别 出 其 中 的 每 一 个 姓氏 和 和 名字 (包括 中 间 名 缩写 、 前 
级 和 后 级 )， 但 是 它们 的 格式 却 很 混乱 ， 很 多 姓名 都 被 列 在 同一 行 中 。 这 就 是 Mr People 能 一 显 刁 
手 的 地 方 。 把 所 有 的 名 字 都 复制 粘贴 到 Mr People 里 (参见 图 2-10 )， 你 就 会 得 到 一 个 非常 干净 的 
表格 ， 可 以 复制 到 其 他 电子 表格 软件 中 去 ， 如 图 2-11 所 示 。 


Allow couples: | singles only "人 Case: | Proper Case Names 3 Output: | Table ES ED 


Paste your names here: 





Donald Ericson 

Ericson, Donald R. $ 

Ericson, Matthew 

Matthew E. Ericson 

Matt Van Ericson 

Matthew E. La Ericson 

M. Edward Ericson 

Matthew and Ben Ericson 
Mathew R. and Ben Q. Ericson 
Ericson, Matthew R. and Ben Q. 
MATTHEW ERICSON 

MATTHEW MCDONALD 

Mr. Matthew Ericson 

Sir Matthew Ericson 

Matthew Ericson lll 

Dr. Matthew Q Ericson IV 
Ericson, Mr. Matthew E 

Von Ericson, Dr. Matthew Edward 








图 2-10 Mr. People 的 姓名 输入 界面 


和 Mr. Data Converter 一 样 ，Mr. People 也 是 一 蒜 开 源 软 件 ， 可 在 github 上 下 载 。 


也 访 问 http://people.ericson.net/ 使 用 Mr. People 来 对 姓名 进行 分 析 ， 或 者 到 http://github.com/ 


mericson/people 下 载 Ruby 源 文件 ， 用 在 你 自己 的 脚本 里 。 





4. 电子 表格 软件 

当然 了 ,如果 你 只 是 想 排序 , 或 者 只 是 对 某 个 数据 点 进行 一 些小 改动 , 那么 你 还 是 可 以 用 月 
己 喜 欢 的 那些 电子 表格 软件 。 如 果 你 不 排斥 手工 编辑 数据 ,这样 做 完全 没 问题 。 其 他 情况 下 ,还 
是 用 之 前 提 到 的 那些 工具 为 好 ( 尤其 是 当 数 据 集 非 第 庞大 时 )， 或 者 日 己 编程 来 解决 。 
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' [] Mr. People 


€ > 傅 © people.ericson.net/people/parse 


Mr. People 


IIIIIIIIIIIIOIIIIIIIIIIIIOIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIOIIIIIIIIIIIIOIIIIIIIOIIIIIIIIOIIIIIIIIOIIIIIIIIIIIIOIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII, 


“ Back to Mr. People 


PARSED | TITLE FIRST MIDDLE | LAST SUFFIX FIRST2 MIDDLE2 | TITLE2 SUFFIX2 MULTIPLE PARSE_TYPE 
9 


Donald 


Ericson alse 


true Donald Ericson 
Ericson, 


Donald R. S Je 


true Donald RS Ericson 
Ericson, 


Matthew ae 


true Matthew Ericson 
Matthew E. 
Ericson 


Van Matt Van 
Ericson Ericson 


true Matthew Ericson false 


true Matt false 
La Matthew E. 
Ericson La Ericson 
M. Edward 
Ericson 
Matthew and 
Ben Ericson 


Mathew R. 
false and Ben Q. false 
Ericson 


true Matthew E false 


true M Edward Ericson false 


false false 


Ericson, 
false Matthew R. false 
and Ben Q. 


MATTHEW 
ERICSON 
MATTHEW 
MCDONALD 
Mr. Matthew 
Ericson 

Sir Matthew 
Ericson 


Matthew 
Ericson 川 


true Matthew Ericson false 


true Matthew McDonald false 


true Matthew Ericson false 


true I Matthew Ericson false 


true Matthew Ericson false 
Dr. Matthew 


Q Ericson IV ialse 


true . Matthew Ericson 
Ericson, Mr. 


Matthew E nlse 


true . Matthew Ericson 
Von Ericson, 

Dr. Matthew false 
Edward 


Von 


true Matthew Edward Ericson 


“ Back to Mr. People 





图 2-11 经 过 Mr. People 分 析 后 得 到 的 姓名 表格 


2.2.3 用 代码 来 格式 化 


虽然 那些 操作 方便 的 软件 确实 能 够 市 来 帮助 , 但 有 时 它们 用 起 来 还 是 谈 不 上 得 心 应 手 。 而 且 
有 些 软件 不 善于 应 付 大 型 数据 ， 它 们 会 变 慢 或 者 朋 演 。 

这 种 情况 下 你 该 怎么 办 呢 ?” 你 可 以 放弃 , 但 您 怕 也 于 事 无 补 。 不 过 , 你 可 以 写 一 点 代码 来 岳 
定 这 件 事 。 有 了 代码 的 帮助 ， 人 处 理 起 来 就 会 更 加 游 思 有余 ， 而 且 还 能 随时 因地制宜 地 修改 脚本 。 

现在 让 我 们 用 一 个 实例 来 说 明 如 何 用 几 行 代码 实现 数据 格式 之 间 的 切换 。 

1. 实例 : 数据 格式 的 切换 

本 例 中 使 用 的 是 Python ， 不 过 你 也 可 以 用 其 他 任何 喜欢 的 语言 。 所 用 的 思路 是 一 样 的 ， 但 语 


A 
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法 上 可 能 会 有 所 不 同 。( 我 喜欢 用 Python 来 开发 应 用 ,因此 目 然 会 选择 用 Python 来 处 理 原 始 数据 。) 

让 我 们 接着 用 之 前 数据 搜集 时 得 到 的 wunder-data.txt 文 件 ， 其 中 有 纽约 州 布 法 罗 市 2009 年 的 
温度 数据 。 最 初 的 几 行 应 该 是 这 样 : 

20090101,26 

20090102 ,34 

20090103,27 

20090104,34 

20090105 ,34 

20090106,31 

20090107,35 

20090108,30 

20090109,25 





这 是 个 CSV 文 件 ， 如 采 你 希望 数据 是 以 下 的 XML 格 式 : 
<weather data>» 
<observation> 
<date>2009010]</date> 
<max_temperature>26</max_ temperature> 
</observation> 
<observation> 
<date>20090102</date> 
<max _ temperature>34<zmax temperature> 
</observation> 
<observation> 
<date>20090103</date> 
<max_ temperature>2r</max temperature> 
</observation> 


<observation> 
<date>20090104</date> 


<max_ temperature>34¢</max temperature> 
</observation> 


<rweather_data> 


其 中 每 一 天 的 温度 数据 都 位 于 <observation> 标 签 内 , 包括 日 期 <date> 和 最 高 温 <max_tem- 
perature>。 

要 想 把 CSV 文 件 转换 为 这 种 XML 格式 ， 可 以 使 用 以 下 代码 片段 : 

1mport csyv 


reader = 《CSsV,reagdertopent wunder-data.txt’, 'r'), delimitéer=",") 
print '‘<weather data>， 





for row in reader: 
print ‘<observation>' 
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print '<date>' + row[0] + '</date>' 
print '‘<max_temperature>' + row[l] + '</max_temperature>' 
print '</observation> 


print ‘</weather data> 


和 之 前 一 样 ， 前 先 你 需要 导入 必要 的 模块 。 因 为 本 例 中 读 取 的 是 CSV 文 件 wunder-data.txt， 
所 以 我 们 只 需要 导入 csv 模 块 即 可 。 

import csv 

第 2 行 代码 先 通过 open() 国 数 打开 wunder-data.txt， 然 后 通过 csv.reader(0) 国 数 对 其 进行 
读 取 。 

reader = csvy.reader(open('wunder-data.txt', ‘r'), delimiter=",") 

请 注意 分 隔 符 被 指 定 为 一 个 辟 写 。 如 琳 文 件 是 以 制 表 符 tab 分 隅 , 束 需要 指定 分 隔 符 为 '\t'。 

第 3 行 代码 的 作用 是 输出 XML 文 件 的 开篇 第 一 行 。 

print ‘<weather data> 

在 代码 的 主干 部 分 , 你 可 以 在 CSV 文 件 中 循环 读 取 每 一 行 数据 , 并 输出 所 需要 的 XML。 在 本 
例 中 ，CSV 文 件 的 每 一 行 都 对 应 XML 中 的 一 个 <observation> 标 签 。 


for row in reader: 
print '<observation> 
print ‘<date>' + row[0] + ‘</date>' 
print ‘<max_ temperature>’ + row[ll] + ‘</max temperature> 
print ‘</observation>' 


每 一 行 都 有 两 个 值 : 日 期 和 最 高 温度 。 

最 后 将 标签 封闭 ， 结 束 XML 转换 。 

print '</weather data> 

这 上 段 代码 主要 完成 两 项 任务 。 痛 先是 读 取 数据 ， 其 次 是 循环 处 理 ， 修 改 每 一 行 数据 的 格式 。 
如 果 想 把 生成 的 XML 转 换 回 CSV, 整个 思路 也 是 一 样 的 。 正 如 以 下 代码 搬 段 所 示 ,， 唯一 的 区 别 是 
需要 为 一 个 模块 来 分 析 XML 文 件 。 


from BeautifulSoup import BeautifulStoneSoup 























f = openC'wunder-data.xml’, 'r') 
Xml = 于,read( 


soup = BeautifulSstoneSoup(xm]l) 
observations = soup.findAllt'observation') 
for o in observations: 
print o.date.string + "," + oO.max_temperature.string 


这 段 代码 看 上 去 跟前 面 很 不 一 样 ， 但 本 质 上 做 的 是 同一 件 事 。 我 们 没有 再 用 csv 模 块 ， 而 是 
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从 BeautifulSoup 库 中 输入 了 BeautifulStoneSoup 模 块 。 还 记得 我 们 曾 用 过 BeautifulSoup 模 块 来 解析 
Weather Underground 网 站 的 HIML 吧 ? BeautifulStoneSoup 则 用 于 解析 更 为 广泛 的 XML 。 

通过 open() 困 数 打开 XML 文件 ， 然 后 载 人 xm 变量 中 的 内 容 。 此 时 xm] 内 容 会 被 存储 为 字符 
串 的 形式 并 传递 到 BeautifulStoneSoup。 通 过 findA11() 函数 获取 所 有 的 <observation> 标 签 
并 进行 循环 分 析 。 最 后 ， 和 我 们 将 CSV 转 换 为 XML 的 过 程 一 样 ， 循 环 所 有 的 <observation>， 
将 其 中 的 值 输出 成 我 们 需要 的 格式 。 

这 样 我 们 就 得 到 了 最 开始 的 CSV 文 件 : 

20090101,26 

20090102 ,34 


20090103,27 
20090104,34 














为 了 加 深 大 家 的 认识 ,下 面 提供 了 将 CSV 转 换 为 JSON 格 式 的 代码 。 
1import csyv 
reader = ctsv.reader(openC' wunder-data.txt', 'r'}, delimiter=",") 


print "{ observations: [" 
PoOws so0 far = 0 


for row in reader: 


rows so far += 1 


print ‘ff' 
pr 门 十 "date”": 1 十 1 1 十 P 台 WO ] 十 ee r 
print '‘"temperature’: ”+ row[l] 


1f rows so 于 ar < 365: 


print 上策 
else: 
print ”用 
print "] }" 





你 可 以 逐 行 阅读 上 面 的 代码 , 试 春 理解 它们 的 意思 。 其实 和 之 前 一 样 , 虽然 输出 的 结 来 不 同 ， 
但 整个 思路 是 一 致 的 。 以 下 是 运行 上 面 代码 得 到 的 JSON 文 件 户 段 。 
| 











"observations": [ 


{ 
ate'": "20090101", 


“二 emperature": 26 


ate'": "20090102", 
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"temperature": 34 


] 
} 
数据 还 是 那些 数据 ， 但 是 日 期 和 温度 却 变 成 了 另 一 种 格式 。 计 算 机 就 是 喜欢 多 样 性 。 
2. 在 循环 中 加 入 新 的 逻辑 
回顾 一 下 将 CSV 文 件 转换 为 JSON 时 所 用 的 代码 ， 你 应 该 会 注意 到 在 for 循 环 中 的 三 行 print 
代码 之 后 使 用 了 if-else 语 句 。 它 的 作用 是 检查 当前 迭代 是 否 已 经 到 达 最 后 一 行 数据 。 如 末 没 有 
到 达 ， 该 条 记录 的 末尾 就 加 上 一 个 逗号 ; 如 果 已 经 到 达 ， 则 不 加 逗号 。 这 是 JSON 规 范 中 的 一 部 
分 。 实 际 上 ， 在 这 里 我 们 可 以 做 更 多 事情 。 
我 们 可 以 检查 最 高 温度 是 否 大 于 某 个 临界 值 ， 比 如 创建 一 个 新 的 值 : 1 代表 超过 该 临界 值 ，0 
代表 未 超过 。 此 举 可 以 让 我 们 对 温度 数据 进行 分 类 ， 或 者 标记 出 某 些 特殊 的 日 子 。 
当然 ,我 们 能 做 的 并 不 仅 限于 检查 临界 值 。 比 如 说 可 以 计算 某 段 时 间 内 的 流动 平均 温度 , 或 
者 每 天 与 前 一 天 的 温度 差 。 要 想 拓展 原始 数据 的 用 途 ， 利用 循环 几乎 可 以 随心 所 欲 , 不 过 先 让 我 
们 看 一 个 简单 的 例子 。 
让 我 们 回 到 最 初 的 CSV 文 件 wunder-data.txt， 通 过 代码 创建 第 三 列 ， 指 出 当天 的 最 高 温度 是 
高 于 还 是 低 于 冰点 。0 表 示 温 度 高 于 冰点 ( 32°F 以 上 )， 而 1 表示 温度 等 于 或 低 于 冰点 。 
import csyv 
reader = ctsv.reader(openC wunder-data.txt', 'r'}, delimiter=",") 
for row 1n reader: 
1f intCrow[l]} <= 32: 
is_freezing = '1 

































































else; 
1s_freezing = '0" 


print row[o] + ",” + row[l] + "," + 1s_freezing 
运行 代码 后 , 结果 会 耳 接 显示 在 终 问 里 。 和 之 前 一 样 , 程序 将 CSV 文 件 里 的 数据 读 取 到 Python 
中 ， 然 后 循环 处 理 每 一 行 ， 检 查 对 应 的 每 一 天 并 作 标 记 。 
这 当然 是 一 个 很 简单 的 例子 , 但 从 中 不 难 发 现 , 我 们 可 以 对 这 一 逻辑 进行 扩展 ， 从 而 随心 所 
谷地 拓展 或 格式 化 数据 。 只 需 记 住 载 和 人、 循环 和 处 理 这 三 个 步 又 即 可 。 














2.3 小结 


本 章 讲 述 了 怎样 寻找 需要 的 数据 ,以 及 在 获得 数据 后 应 如 何 处 理 。 在 可 视 化 过 程 中 ,这 是 至 
天草 要 的 一 步 。 如 果 基 础 数据 让 人 感觉 乏味 ,数据 图 也 不 可 能 会 让 人 产生 兴趣 。 无 论 图 形 设 计 得 
多 么 优 关 ， 只 有 数据 (或 者 分 析 数 据 得 到 的 结 灯 ) 本 吴 才 是 立足 之 本 。 现 在 大 家 擎 握 了 获取 和 处 
理 数 据 的 方法 ， 已 经 迈 出 了 很 大 一 步 。 
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与 此 同时 我 们 也 初步 接触 了 编程 。 从 网 站 搜集 数据 、 赋 了 予 其 格式 并 重新 整理 , 这些 技 巧 将 为 
后 面 几 间 的 学 习 市 来 很 大 帮助 。 不 过 , 最 重要 的 一 点 在 于 代码 中 的 逻辑 思路 。 虽 然 我 们 只 用 到 了 
Python， 但 在 此 基础 上 使 用 Ruby、Perl 或 者 PHP 都 不 是 什么 难事 。 各 种 编程 语言 的 思路 都 是 一 臻 
的 。 当 你 擎 握 了 一 门 编程 语言 之 后 ,学 习 其 他 语言 会 非常 容易 (如 采 你 对 编程 很 了 解 的 话 ， 那 么 











一 定 会 赞同 这 句 话 )。 

当然 ,不 一 定 每 次 都 非得 求助 于 代码 。 如 东 有 方便 的 应 用 能 够 带 你 分 担 一 部 分 工作 , 那么 就 2 
应 该 尽量 利用 它们 。 是 竞 你 掌握 和 了 解 的 工具 越 多 ， 卡 元 的 概 座 就 会 越 小 。 

很 好 ， 你 手 上 已 经 有 了 数据 。 可 以 开始 可 视 化 了 。 














在 上 一 章 中 , 我 们 了 解 了 去 哪里 找到 数据 ， 以 及 如 何 将 数据 设置 为 自 
己 需 要 的 格式 。 现 在 让 我 们 看 看 可 视 化 方面 。 关 于 这 一 点 ， 人 们 最 常 间 的 

司 题 是 “我 应 该 用 什么 软件 来 对 数据 可 视 化 ? ” 

幸运 的 是 ,我 们 有 很 多 迁 择 。 有 些 软件 是 开 箱 即 用 的 ( out-of- the-box )， 
只 需要 鼠标 就 能 操作 ,还 有 些 软件 则 需要 一 点 编程 技巧 。 虽 然 有 些 工 具 并 
非 专门 用 于 制作 数据 图 ， 但 依然 很 有 帮助 。 它 们 在 本 章 中 都 会 有 所 提 及 。 

掌握 或 了 解 的 可 视 化 工具 多 了 之 后 , 面 对 数 据 时 就 不 会 束手无策 , 创 
作出 你 想 要 的 数据 图 也 会 更 加 容易 。 
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3.1 开 箱 即 用 的 可 视 化 工具 


开 箱 即 用 的 软件 是 目前 最 简单 的 解决 方案 ， 适 合 新 于 和 学习。 只 需 对 数据 进行 一 些 复制 精 
贴 ， 或 者 载 人 茶 个 CSV 文 件 就 可 以 开始 了 。 下 接 选 择 想 要 的 图 形 类 型 ， 然 后 稍微 调整 一 下 选 
项 即 可 。 





3.1.1 可 选项 


开 箱 即 用 的 工具 彼此 之 间 有 很 多 不 同 ， 这 取决 于 它们 各 目 面 问 的 对 象 。 其 中 一 些 ( 例如 
Microsoft Excel 和 Google Documents ) 主要 用 于 基础 的 数据 管理 和 图 形 创 建 ， 而 男 一 些 则 更 偏 问 
于 这 入 分 析 或 可 视 化 研究 。 

1. Microsoft Excel 

几乎 所 有 人 都 知道 这 球 软 件 。 图 3-1 显 示 了 输入 数据 时 的 电子 表格 。 

输入 一 定数 据 之 后 ， 在 亲 单 栏 单 击 “ 图 表 ” 的 选项 就 可 以 生成 想 要 的 图 表 了 。Excel 提 供 了 
各 种 标准 的 图 表 类 型 以 供 选 择 ， 包 括 柱 形 图 、 折 线 图 、 饼 图 和 散 点 图 ( scatter plot ) 等 ， 如 图 3-2 
所 示 。 
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图 3-1 ”Microsoft Excel 的 电子 表格 
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图 3-2 ”Microsoft Excel 的 图 表 选 择 


有 些 人 对 Excel 咯 之 以 虹 ， 但 其 实 它 并 不 至 于 如 此 不 堪 。 比 如 说 ， 虽 然 我 不 会 用 Excel 来 
做 深度 分 析 , 生成 的 图 表 也 不 会 用 于 出 版 , 但 如 果 我 手中 正好 有 一 个 Excel 格 式 的 小 型 数据 集 
( 这 种 情况 很 常见 )， 同 时 叉 想 快速 找 找 感觉 ， 那 么 自然 就 会 随手 点 击 几 下 忌 标 用 它 生 成 一 个 
图 形 。 











图 形 也 可 以 很 好 玩 
我 在 计算 机 上 制作 的 第 一 张 数据 图 就 是 用 的 Microsoft Excel， 是 为 了 应 付 小 学 四 年 级 的 一 
次 课外 科学 研究 ,。 我 和 搭档 试图 研究 蜗牛 在 什么 样 的 平面 上 扑 得 最 快 。 这 是 一 次 史无前例 的 研 
完 ， 我 向 你 保证 。 
虽然 还 是 个 小 屁 孩 ， 那 时 候 我 就 已 经 开始 喜欢 上 制图 了 。 我 花 了 很 长 时 间 才 学 会 (当时 计 
算 机 对 我 来 说 还 是 个 新 鲜 玩 意 )， 但 在 最 终 掌 握 之 后 ， 回 报 是 令 人 激动 的 。 我 在 电子 表格 里 输 
入 数字 ， 然 后 立刻 就 能 得 到 图 形 ， 还 可 以 随意 改变 颜色 ， 一 切 都 棒 极 了 。 








下 是 Excel 的 方便 多 用 让 它 获得 了 大 众 的 欢迎 ， 这 很 好 。 但 如 果 你 想 要 蜗 质 量 的 数据 图 就 不 
要 止步 于 此 。 其 他 工具 会 更 适合 你 。 

2. Google Spreadsheets 

Google Spreadsheets 其 实 就 是 Microsoft Excel 的 云 版 本 ， 两 者 的 界面 非常 相似 (参见 图 3-3 )。 
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图 3-3 Google Spreadsheets 


它 也 提供 了 标准 的 图 表 类 型 ， 如 图 3-4 所 示 。 


和 EX 





图 3-4 ”Google Spreadsheets 的 图 表 选 择 


不 过 和 Excel 相 比 ，Google Spreadsheets 拥 有 更 多 优势 。 首 先 ， 你 的 数据 都 存储 在 Google 的 服 
务 需 上, 所 以 你 可 以 在 任何 安 闻 了 浏览 硕 的 计算 机 上 查看 目 己 的 数据 ， 只 要 登录 你 的 Google 账 扎 
就 行 。 同 时 你 也 能 很 方便 地 把 自己 的 电子 表格 共 圣 给 其 他 人 ， 还 能 做 到 实时 协作 。 此 外 ，Google 
Spreadsheets 还 在 Gadget (小 工具 ) 选项 中 提供 了 很 多 其 他 的 图 表 类 型 ， 如 图 3-5 所 示 。 
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图 3-$ ”Google 小 工具 


大 多 数 小 工具 都 没什么 用 , 但 其 中 也 有 几 个 好 的 。 比 如 说 , 你 可 以 轻而易举 地 为 自己 的 时 间 
序列 数据 创建 运动 图 表 ( 就 像 Hans Rosling 做 的 那样 )。 此 外 还 有 一 种 可 交互 的 时 间 序 列 图 表 ， 如 
果 你 访问 过 Google Finance 的 话 ， 就 会 发 现 它 非常 眼熟 (参见 图 3-6 )。 
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图 3-6 Google Finance 


也 访问 Google Docs 试 用 一 下 spreadsheets， 地 址 有 是 http://docs.google.com。 
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3. Many Eyes 

Many Eyes 是 IBM 视 党 传达 实验 室 (IJBM Visual Communication Lab ) 主导 的 一 个 研究 项 目 ， 
目前 还 在 进行 中 。 它 是 一 个 在 线 应 用 , 这 有 一 系列 交互 式 的 可 视 化 工具 ,可 以 识别 市 分 隅 符 的 文 
本 文件 。Many Eyes 的 初衷 是 想 了 解 人 们 能 否 以 群 组 的 形式 探索 大 型 数据 集 一 一 这 也 正 是 它 的 名 
字 的 来 历 。 如 采 一 个 群 组 内 的 众多 双眼 睛 来 观察 某 个 数据 集 , 是 否 会 从 中 挖掘 到 更 多 有 意思 的 地 


方 ? 效率 是 否 会 更 高 ? 


虽然 Many Eyes 目 前 尚未 提供 多 人 的 数据 分 析 功 能 ， 作 为 个 人 使 用 来 说 它 依 然 很 有 价值 。 其 
中 涵盖 了 绝 大 多 数 传统 的 可 视 化 类 型 ， 例 如 折线 图 ( 图 3-7 ) 和 散 点 图 ( 图 3-8 )。 


图 3-7 Many Eyes 的 折线 图 
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图 3-8 ”Many Eyes 的 散 点 图 
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Many Eyes 的 优势 在 于 其 中 的 可 视 化 数据 图 部 是 可 交互 的 ， 而 且 有 一 些 定制 选项 。 比 如 说 在 
散 点 图 中 就 可 以 用 第 3 种 指标 来 测量 各 个 数据 市 点 ， 而 有 旦 鼠标 晨 停 到 感 兴趣 的 数据 节点 上 时 还 能 
查看 具体 的 数值 。 

除了 传统 图 表 和 一 些 基础 的 地 图 工具 之 外 ，Many Eyes 还 提供 了 多 种 更 为 先进 和 试验 化 的 可 
视 化 方法 。 单 词 树 ( word tree ) 可 以 帮助 我 们 人 研究 一 整 段 文本 ， 例 如 书 或 文章 中 的 某 个 段落 。 首 
先 选 择 一 个 单词 或 短语 , 然后 就 能 通过 与 它 相 连 的 单词 了 解 到 它 在 整 段 文本 中 的 使 用 状态 。 比 如 
说 ， 图 3-9 就 显示 了 在 美国 宪法 中 搜索 “right” 一 词 得 到 的 结果 。 
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图 3-9 ”Many Byes 的 单词 树 显示 了 美国 宪法 的 部 分 内 容 


针对 同样 的 数据 , 我 们 还 可 以 轻松 地 在 各 个 工具 之 间 转 换 。 图 3-10 是 一 种 特殊 风格 的 单词 云 ， 
被 称 为 “Wordle”， 同 样 显示 了 美国 宪法 的 内 容 。 单 词 使 用 得 越 频 繁 ， 字 号 就 越 大 。 
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图 3-10 ”美国 完 法 的 Wordle 
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如 你 所 见 ，Many Eyes 有 许多 选项 便于 我 们 处理 数据 ,而 且 它 也 是 目前 数据 探索 中 用 途 最 为 
广泛 的 免费 工具 (在 我 看 来 也 是 最 好 的 )。 不 过 有 一 两 点 仍然 需要 注意 。 第 一 是 其 中 的 大 部 分 工 
具 都 是 Java 小 应 用 程序 ， 所 以 如 果 没 有 安装 Java， 可 能 就 无 法 充分 利用 它 。( 对 大 多 数 人 来 说 这 
其 实 不 算 什 么 问题 ， 但 我 确实 认识 一 些 人 ， 不 管 是 什么 原因 ， 他 们 对 上 自己 电脑 上 安 凌 了 什么 非 
常 在意 。 

另 一 点 对 多 数 人 来 说 则 可 能 更 为 敏感 一 些 : 上 传 到 网 站 的 数据 是 存储 在 公共 空间 里 的 。 所 以 
最 好 不 要 用 Many Eyes 来 挖掘 你 的 公司 客户 信息 ， 或 者 销售 数据 。 

















也 访 问 http://many-eyes.com， 试 着 上 传 你 自己 的 数据 并 可 视 化 它 。 





4. Tableau Software 

Tableau Software 是 一 悉 只 面 癌 Windows 的 软件 ， 相 对 比较 新 ， 但 在 过 去 几 年 中 开始 受到 越 来 
越 多 的 欢迎 。 它 的 设计 初衷 主要 是 用 于 视觉 化 的 数据 研究 和 分 析 。 很 明显 该 软件 在 美学 和 设计 上 
花 了 不 少 心思 ， 这 也 是 人 们 喜欢 它 的 原因 。 

Tableau Software 提 供 了 许多 可 交互 的 可 视 化 工具 , 在 数据 管理 方面 也 表现 不 错 。 数据 可 以 从 
Excel、 文 本 文件 和 数据 库 服 务 右 中 导入 ， 生 成 标准 的 时 间 友 列 图 表 、 柱 形 图 、 饼 图 、 基 本 地 图 
等 多 种 图 形 。 你 可 以 挂 接 动态 数据 源 ,将 各 种 图 形 混合 搭配 形成 定制 视图 , 或 者 通过 仪表 盘 视 图 
随时 关注 数据 的 状态 。 

最 近 ，Tableau 发 布 了 Tableau Public, 这 是 免费 版 本 , 包含 果 面 版 的 一 部 分 功能 。 你 可 以 把 数 
据 上 传 到 Tableau 的 服务 需 , 创建 可 交互 的 图 形 , 然后 轻而易举 地 发 布 到 你 的 网 站 或 博客 上 。 不 过 
和 Many Eyes 一 样 ， 上 传 到 服务 帮 的 所 有 数据 都 是 公开 的 ， 所 以 需要 小 心 。 

如 采 想 用 Tableau, 但 又 想 确 保 数 据 隐私 ,就 需要 购买 昌 面 版 本 。 本 书写 作 时 , 呆 面 版 本 的 售 
价 是 个 人 版 999 美 元 ， 专 业 版 1999 美 元 。 























也 访 问 http://tableausoftware.com 了 解 Tableau 软 件 。 网 站 提供 了 这 完整 功能 的 免费 试用 。 


5. your.flowingdata 

对 个 人 数据 收集 的 兴趣 让 我 开发 了 自己 的 应 用 ，your.flowingdata( YFD )。 这 是 一 蒜 在 线 应 
用 ,用 户 可 以 从 Twitter 收集 数据 ， 通 过 一 系列 可 交互 的 可 视 化 工具 探索 其 中 的 模式 和 联系 。 有 人 
通过 它 来 追踪 目 己 的 饮食 习惯 或 者 起 居 时 间 。 还 有 人 用 它 来 记录 上 自己 婴儿 的 每 日 状况 , 稍微 改动 
一 下 数据 就 成 了 一 本 宝贝 剪贴 注 。 

YFD 本 来 主要 针对 的 是 个 人 数据 方面 , 但 有 些 人 发 现 这 个 应 用 对 于 通用 类 型 的 数据 收集 也 很 
有 帮助 ， 例 如 网 络 活 动 监控 或 者 火车 时 刻 表 。 




















耻 访 问 http:/your.flowingdata.com， 尝 试 通过 Twitter 来 收集 个 人 数据 。 
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3.1.2 ”取舍 


尽管 这 些 工具 禾 非常 容易 使 用 , 但 也 存在 一 些 缺 贼 。 只 需 鼠 标 操 作 无 疑 十 分 便捷 , 但 随 之 而 
来 的 却 是 丧失 一 定 的 灵活 性 。 你 可 以 改变 颜色 、 字 体 和 标题 ， 但 仪 限 于 软件 所 提供 的 那些 元 素 。 
如 果 界 面 上 没有 你 想 要 的 图 表 按 钮 ， 你 就 只 有 唉 声 叹 气 的 份 。 

为 一 方面 ， 有 些 软件 可 能 确实 提供 了 充分 的 功能 ,但 你 可 能 需要 等 习 大 量 的 按钮 。 比 如 说 ， 
我 兽 花 了 一 个 周末 去 突击 学 习 菏 球 软 件 ( 前文 并 未 列 出 )， 而 且 很 明显 ， 如 果 投 入 更 多 时 间 ,， 我 
就 能 通过 它 完 成 很 多 事情 。 但 是 这 球 软 件 的 整个 操作 流程 完全 菲 夷 所 思 , 让 人 根本 没有 心思 学 下 
去 -而 且 要 想 针 对 不 同 的 数据 集 重 复 一 过 流程 也 很 困难 , 因为 我 必须 记 住 之 前 点 击 过 的 所 有 按钮 。 
































而 相 比 之 下 , 通过 代码 来 处 理 数据 就 会 更 加 容易 ， 因 为 针对 不 同 的 数据 集 只 和 需 各 微 改动 一 下 代码 
就 可 以 解决 。 








不 要 误解 我 的 意思 。 我 并 不 是 说 这 些 开 箱 即 用 的 软件 束 应 该 完全 弃 之 不 用 。 它们 能 帮 你 快速 
是 方 便 地 人 研究 数据 。 但 当 你 开始 接触 更 多 的 数据 集 时 ,可 能 这 些 软件 束 不 能 满足 所 逢 了 。 到 这 个 
时 候 ， 你 可 以 借助 于 编程 手段 。 
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不 用 太 紧 张 。 营 握 一 点 点 编程 技巧 ， 你 就 能 利用 数据 做 更 多 的 事情 , 远 远 超过 那些 开 箱 即 用 
的 软件 。 编 程 拉 巧 能 赋予 你 更 加 灵活 的 能 力 ， 而 且 各 种 类 型 的 数据 都 能 适应 。 

大 多 数 设 计 新 视 、 令 人 导 艳 的 数据 图 都 是 通过 代码 或 绘图 软件 实现 的 ， 很 有 可 能 两 者 兼 有 。 
有 关 绘 图 软件 我 们 和 棚 后 也 会 谈 到 。 

对 于 新 手 来 说 代码 可 能 顾 为 神秘 一 一 我 也 是 这 样 过 来 的 。 但 我 们 可 以 把 它 当 做 一 门 新 语言 > 
看 待 ， 因 为 它 确 实 如 此 。 每 一 行 代 码 都 告诉 计算 机 去 做 采 件 事情 。 计 算 机 不 做 我 们 和 朋友 之 间 所 
用 的 语言 ， 所 以 你 必须 用 它 目 己 的 语言 或 语法 才能 和 它 交 流 。 

与 任何 语言 一 样 ， 你 不 可 能 立刻 就 开始 进行 对 话 。 要 从 基础 开始 ,然后 逐步 建立 目 己 的 学 习 
方式 。 很 可 能 在 你 意识 到 之 前 ,你 就 已 经 开始 写 代码 了。 关于 编程 最 酶 的 事情 在 于 , 一 旦 你 擎 握 
了 一 门 语 言 ， 学 习 其 他 请 言 就 会 更 加 容易 ， 因 为 它们 的 逻辑 思路 是 共通 的 。 






































3.2.1 可 选项 


看 来 你 已 经 决定 要 卷 起 袖子 号 代码 了 一 一 好 样 的 。 在 这 里 你 有 很 多 选择 。 针 对 不 同 的 任务 ， 
各 种 语言 之 间 互 有 优 劣 。 有 些 语言 善于 处 理 大 量 数据 ， 其 他 一 些 则 可 能 仿 丫 于 更 好 的 视觉 效 玉 ， 
或 者 提供 交互 功能 。 选 择 何 种 语言 取决 于 你 对 数据 图 的 目标 ， 或 者 看 你 对 哪 种 语言 更 习惯 。 

有 些 人 坚持 只 学 一 门 编程 请 言 ， 并 把 它 学 得 很 透 。 这 没 问 题 ， 而 且 如 采 你 是 编程 新 手 ， 我 强 
烈 推 荐 这 一 介 略 。 尽 量 见 悉 代码 的 基础 规范 和 重要 概念 。 

我 们 应 该 选择 最 能 满足 日 已 需要 的 编程 放言 。 不 过 ,和 苔 握 新 语言 、 了 解 新 玩法 也 是 很 有 乐趣 
的 。 因 此 在 作 决 定之 前 ， 不 妨 先 积累 一 些 编程 经 验 。 
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1. Python 

前 一 草 我 们 已 经 讨论 了 如 何 利用 Python 来 处 理 数 据 。Python 善 于 处 理 大 批量 的 数据 ， 不 会 造 
成 宕 机 。 这 使 得 该 语言 能 够 胜任 繁重 的 计算 和 分 析 工 作 。 

Python 干净 易 读 的 语法 也 很 受 程序 员 们 欢迎 ， 还 可 以 利用 很 多 模块 来 创建 数据 图 形 ， 例 如 
图 3-11 中 的 这 种 。 
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图 3-11 利用 Python 生 成 的 图 表 
从 美学 方面 来 看 ， 这 个 图 表 还 不 够 好 。 下 接 拿 Python 输 出 的 图 片 用 于 印刷 可 能 会 比较 勉强 ， 
尤其 是 在 边缘 处 给 人 感 党 比较 粗糙 。 但 不 管 怎 样 ， 这 是 数据 探索 阶段 一 个 很 不 错 的 开始 。 或 者 你 
也 可 以 先 输出 图 片 ， 然 后 再 利用 其 他 的 图 形 编辑 软件 来 润色 或 添加 信息 。 








有 用 的 Python 资源 
口 Python 官方 网 站 http:/python.org。 
口 NumPy 和 SciPy"http:/numpy.scipy.org/ 





科学 计算 模块 。 


2. PHP 

PHP 是 我 刚 开始 网 页 编程 时 学 到 的 第 一 门 语言 。 有 些 人 说 它 
很 松散 ， 确 实 如 此 ， 但 也 可 以 让 它 很 有 条 理 。 大 部 分 Web 服 务 器 | cs 入 1955 e006 6 
都 预 安装 了 PHP 的 开源 软件 , 因此 要 想 着 手写 PHP 是 非常 容易 的 。 | 3 人 

绝 大 多 数 预 安装 中 都 会 包含 一 个 叫做 GD 的 图 形 函数 库 。 这 个 | oaer .130 人 3173 
库 非 常 灵活 ， 能 让 你 从 无 到 有 地 创建 图 形 ， 或 者 修改 已 有 图 形 。 
此 外 还 有 很 多 PHP 图 形 函数 库 能 帮助 我 们 创建 各 类 基本 的 图 表 。 最 图 3-12 利用 PHP 图 形 函 数 库 生 成 
受 欢迎 的 是 Sparkline ( 微 线 表 ) 库 , 它 能 让 你 在 文本 中 巾 入 小 字号 的 短线 表 
的 微型 图 表 ， 或 者 在 数字 表格 中 添加 视觉 元 素 ， 如 图 3-12 所 示 。 























CQ NumPy 是 Python 的 一 个 数据 处 理 的 函数 库 ， 里 面 主要 是 一 些 和 矩阵 的 运算 等 。SciPy 是 Python 语言 中 用 于 科学 研究 的 
孙 数 库 ， 它 是 在 Numpy 基 础 上 开发 的 。 
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一 般 PHP 的 出 现 都 会 伴随 着 MySQL 等 数据 库 ， 而 不 是 一 堆 CSV 文 件 。 这 使 它 能 物 尽 其 用 , 处 
理 大 型 的 数据 集 。 





有 用 的 PHP 资 源 
口 PHP 官 方 网 站 ( http://php.net )。 
口 Sparkline PHP 图 形 函 数 库 (http://sparkline.org )。 


3. Processing 

Processing 是 一 门 适 合 于 设计 师 及 数据 艺术 家 的 开源 语言 。 最 早 的 Processing 还 只 能 算 作 是 小 
品级 别 ， 可 以 让 用 户 快 速生 成 图 形 ,， 但 随后 获得 了 长 足 的 发 展 ， 完 成 了 很 多 高 质量 的 项 目 。 比 如 
说 ， 第 1 章 中 提 到 的 We Feel Fine 就 是 用 Processing 中 创建 的 。 

Processing 很 棒 的 一 点 是 能 很 快 上 手 : 轻 量 级 的 编程 环境 ， 只 需 儿 行 代码 就 能 创建 出 带 有 动 
画 和 交互 功能 的 图 形 。 这 蒜 工 具 确 实 很 基础 ,但 由 于 它 偏重 于 视觉 思维 的 创造 性 ， 你 很 容易 就 能 
知道 如 何 创 造 出 更 高 级 的 作品 。 

虽然 在 一 开始 主要 是 设计 师 和 艺术 家 使 用 Processing， 但 如 今 它 的 受众 群体 已 经 越 来 越 多 样 
化 了 。 你 可 以 借助 各 种 函数 库 来 提升 它 的 威力 。 

它 的 缺点 之 一 是 要 使 用 到 Java 小 应 用 程序 ， 在 某 些 计算 机 上 载 和 人 时 可 能 会 很 慢 ， 而 且 并 不 是 
每 个 人 都 安装 了 Java (尽管 多 数 人 都 安装 了 )。 不 过 这 也 有 人 解决 办 法 ，Processing 在 不 久 前 发 布 了 
它 的 JavaScript 版 本 。 

无 论 如 何 , 它 对 于 新 手 来 说 是 个 很 好 的 起 点 。 即 使 是 毫 无 编程 经 验 的 用 户 也 能 够 做 出 有 价值 
的 东西 。 



































有 用 的 Processing 资 源 
口 Processing 的 官方 网 站 (http://processing.org )。 


4. Flash 和 ActionScript 

网 上 大 多 数 可 交互 的 动画 数据 图 都 是 通过 Flash 和 ActionScript 开 发 的 ， 尤 其 是 在 《纽约 时 报 》 
这 样 的 主流 新 闻 网 站 上 。 我 们 可 以 直接 用 Flash 来 设计 图 形 , 这 也 是 一 于 所 见 即 所 得 的 软件 , 但 有 
了 ActionScript 的 帮助 ， 就 能 更 好 地 控制 交互 行为 。 许 多 应 用 都 是 完全 用 ActionScript 写 的 ， 无 需 
用 到 Flash 环 境 ， 不 过 这 些 代码 还 是 作为 Flash 应 用 来 进行 编译 。 








说 明 虽然 有 很 多 免费 、 开 源 的 ActionScript 函 数 库 ， 但 是 Flash 软 件 和 Flash 编 译 器 的 价格 比较 昂 
贵 ， 在 你 选择 软件 时 需要 考虑 这 一 点 。 








比如 说 , 表现 沃尔玛 企业 成 长 的 可 交互 动画 演示 地 图 ( 见 图 3-13 ) 就 是 用 ActionScript 写 成 的 。 
其 中 调用 了 Modest Maps 库 。 这 是 一 个 用 于 区 块 拼接 地 图 ( tile-based map ) 的 显示 和 交互 的 滑 数 
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库 ， 以 BSD 许 可 协议 "发布 ， 这 表示 它 是 免费 的 ， 大 家 可 以 随心 所 欲 地 使 用 。 





图 3-13 ”动画 演示 沃尔玛 企业 成 长 的 地 图 ， 以 ActionScript 写 成 〈 另 见 彩 插图 3-13 ) 


图 3-14 中 的 可 交互 堆 释 面积 图 也 是 由 ActionSeript 写 成 的 。 它 能 让 你 搜索 数 年 来 各 种 消费 开支 
的 大 小 变化 ， 例 如 住房 ( Housing ) 和 交通 ( Transportation )。 这 一 艰巨 的 任务 是 由 加 州 大 学 伯 克 
利 分 校 可 视 化 实验 室 开 发 的 Flare Action Script 库 完 成 的 。 








Search: 


1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 





图 3-14 ”显示 消费 开支 分 类 的 可 交互 堆 羞 面积 图 ， 以 ActionScript 写 成 


() BSD 许可 协议 ( Berkeley Software Distribution license )， 是 自由 软件 (开源 软件 的 一 个 子 集 ) 中 使 用 最 广泛 的 许可 
协议 之 一 。 
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如 果 你 对 网 上 的 可 交互 图 形 感 兴趣 ， 那 么 Flash 和 ActionScript 是 非常 好 的 选择 。Flash 应 用 的 
下 载 相 对 较 快 ， 而 且 绝 大 多 数 人 的 计算 机 上 都 安 辰 了 Flash 播 放 央 。 

不 过 ActionScript 并 不 好 学 。 虽 说 语法 并 不 复杂 ,但 是 安放 和 代码 的 组 织 却 可 能 会 难 倒 初学 者 。 
你 不 可 能 像 Processing 那 样 只 用 几 行 代码 就 运行 成 功 。 在 后 面 的 章节 中 我 会 市 领 大 家 实践 其 中 的 
基本 步 又， 另外 由 于 Flash 的 广泛 使 用 ， 在 网 上 还 能 找到 很 多 极 有 帮助 的 教程 。 

与 此 同时 ，Web 训 览 郁 一 下 在 改 速 发 展 ， 其 运行 速度 和 效率 也 有 了 显著 的 提高 。 这 让 我 们 有 
了 很 多 其 他 的 选择 。 











有 用 的 Flash 和 ActionScript 资 源 
口 Adobe 支 持 ( http://www.adobe.com/products/flash/whatisflash/ ) 
(以 及 其 他 Adobe 产 品 ) 的 官方 文档 。 
口 Flare 可 视 化 工具 包 ( http://flare.prefuse.org )。 
口 Modest Maps 函 数 库 〈http:/modestmaps.com )。 





Flash 和 ActionScript 


5. HTML、JavaScript 和 CSS 

Web 浏 览 带 的 运行 速度 越 来 越 快 ， 功 能 也 越 来 越 完善 。 不 少 人 使 用 浏览 絮 的 时 间 要 超过 计算 
机 上 的 其 他 任何 程序 。 可 视 化 在 近期 也 有 了 相应 的 转变 ， 开 始 借助 HIML 、JavaScript 和 CSS 代 码 
直接 在 浏览 各 中 运行 。 在 过 去 ， 可 交互 的 数据 图 一 般 都 是 通过 Flash 和 ActionScript 来 实现 ， 而 静 
人 态 数 据 图 则 需要 存储 为 图 片 格式 。 现 在 的 情况 也 大 抵 如 此 ,但 不 再 只 有 这 一 种 选择 。 

一 些 功能 强健 的 工具 包 和 因数 库 可 以 帮助 我 们 快速 创建 可 交互 或 静态 的 可 视 化 图 形 。 它 们 还 
提供 了 大 量 的 选项 ， 以 便 你 针对 数据 需要 进行 定制 。 

比如 说 ， 斯 坦 福 大 学 可 视 化 团队 开发 的 Protovis 就 是 一 蒜 免 费 开 源 的 可 视 化 函数 库 ， 它 能 帮 
助 你 创建 网 页 原生 的 可 视 化 作品 。Protovis 提 供 了 一 系列 开 箱 即 用 的 可 视 化 工具 ， 但 你 在 创建 几 
何 图 形 时 不 会 受到 任何 限制 。 图 3-15 显 示 的 是 一 幅 可 交互 的 堆 蓝 面积 图 。 























图 3-1$ ”由 Protovis 生 成 的 堆 秋 面积 
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Protovis 中 内 般 了 这 一 图 表 类 型 。 我 们 还 可 以 生成 形式 更 加 新 疾 的 流 线 图 ( streamgraph )， 如 
图 3-16 所 示 。 





图 3-16 ”由 Protovis 自 定义 生成 的 流 线 图 








我 们 还 可 以 利用 多 个 库 来 扩充 功能 。Flash 也 能 做 到 这 一 点 ， 但 JavaScript 在 代码 方面 的 工作 
量 会 小 很 多 。 有 了 jQuery 和 MooTools 等 库 的 协助 ，JavaScript 也 更 加 容易 阅读 和 使 用 。 这 些 库 并 非 
专 为 可 视 化 而 开发 的 , 但 仍然 能 齐 来 很 大 帮助 。 它 们 提供 了 大 量 基 础 功能 ， 只 需 几 行 代码 就 能 实 
现 。 如 果 没 有 这 些 库 ,我 们 要 与 的 代 人 码 就 会 更 多 ， 而 且 稍 不 注音 就 可 能 源 洞 百出 。 

这 些 库 还 提供 了 一 些 插件 ， 帮 助 我 们 制作 较为 基础 的 图 形 。 例 如 ， 你 可 以 利用 jQuery 的 
Sparklines( 微 线 表 ) 插件 来 生成 微 线 表 ( 见 图 3-17 )。 


一 


图 3-17 ”通过 jQuery 的 Sparklines 插 件 生成 的 微 线 表 


用 PHP 也 可 以 做 到 这 一 点 ,但 这 种 方法 具有 更 多 优势 。 首先 ， 数 据 图 是 在 用 户 的 浏览 锅 中 生成 
的 ， 而 非 服 务 融 闪 。 这 能 绥 解 服务 需 的 压力 ， 否 则 在 流量 较 大 的 情况 下 你 的 网 站 束 可 能 会 出 问题 。 

另 一 个 优势 在 于 你 无 需 在 目 己 的 服务 占 上 安 闻 PHP 图 形 库 。 很 多 服务 右上 都 预 安 闻 了 这 些 图 
形 库 ， 但 也 有 一 些 没有 。 如 果 你 对 PHP 图 形 库 不 熟悉 ， 安 装 过 程 可 能 会 非常 麻烦 。 

也 许 有 人 不 想 用 插件 。 没关系， 利用 标准 的 网 页 编程 也 可 以 定制 可 视 化 的 效果 。 图 3-18 就 是 
一 副 可 交互 的 日 历 ， 同 时 也 是 用 户 使 用 yourflowingdata 工 具 的 热度 图 ( heatmap )。 

不 过 还 是 有 几 点 需要 注意 。 由 于 相关 的 软件 和 技术 还 比较 新 , 在 不 同 浏览 紫 中 你 的 设计 可 能 
在 显示 上 会 有 所 差别 。 在 Internet Explorer 6 这 类 老 旧 的 浏览 锅 中 ， 有 些 工 具 可 能 无 法 正 浓 运 行 。 
不 过 这 种 情况 正在 逐 讲 好 转 ， 因 为 绝 大 多 数 人 都 已 经 转 同 了 Firefox 或 Google Chrome 等 更 现代 的 
浏览 希 。 归 根 结 底 ， 这 还 是 取决 于 你 的 受众 群体 。 在 FlowingData 网 站 的 访问 者 中 ， 只 有 不 到 5% 
的 人 还 在 用 低 版 本 的 Internet Explorer， 因 此 浏览 亏 兼 容 性 并 不 是 很 严重 的 问题 。 









































图 3-18 ”可 交互 日 历 ， 同 时 也 是 用 户 使 用 your.flowingdata 的 热度 图 
同样 ， 由 于 该 技术 的 普及 率 尚 不 够 高 ， 为 JavaScript 可 视 化 提供 支持 的 函数 库 不 像 在 Flash 和 
ActionScript 中 那么 多 。 这 也 是 为 什么 许多 主流 新 闻 机 构 仍然 大 量 使 用 Flash 的 原因 。 不 过 随 着 技 
术 的 发 展 这 一 局 面 终 会 发 生 改 变 。 





有 用 的 HTML、JavaScript 和 CSS 资 源 
口 jQuery (http://jquery.com/ ) 一 一 一 个 JavaScript 库 ， 能 让 该 语言 的 编程 更 加 部 效 ， 而 且 
让 最 终 代 码 更 加 弓 读 。 
口 jQuery Sparklines (http://omnipotent.net/jquery.sparkline/ ) 





通过 JavaScript 生成 静态 


及 动画 的 微 线 图 。 

口 Protovis ( http://vis.stanford.edu/protovis/ ) 一 一 专用 于 可 视 化 的 JavaScript 库 ,提供 了 实 
例 以 便 学 习 。 

口 JavaScript InfoVis 工 具 包 ( http://datafl.ws/15f ) 一 一 另 一 个 可 视 化 库 ， 但 不 如 Protovis 
成 熟 。 





口 Google Charts API (http://code.google.com/apis/chart/ ) 动态 创建 传统 形式 的 图 表 ， 


只 需 修改 URL 即 可 。 
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6.R 

如 采 你 浏览 过 FlowingData， 可 能 就 会 知道 我 最 喜欢 的 数据 图 形 软 件 就 是 R。 它 是 一 球 免 费 量 
开源 的 统计 学 计算 软件 ， 图 形 功 能 也 很 强大 。 它 也 是 绝 大 多 数 统计 学 家 最 中 意 的 分 析 软 件 之 一 。 
此 外 还 有 一 些 功能 近似 的 付费 软件 , 例如 S-plus 和 SAS, 不 过 它们 很 难 比 得 上 R 的 完全 免费 以 及 活 
路 的 开发 社区 氛围 。 

相 较 于 之 前 提 到 的 所 有 软件 , R 的 优势 之 一 在 于 它 是 专 为 数据 分 析 而 设计 的 - HTML 的 用 
途 主要 是 创建 网 页 ， 而 Flash 则 用 于 其 他 方面 ， 例 如 视频 以 及 动态 广告 。 但 R 却 是 由 统计 学 家 
开发 并 维护 ， 主 要 的 面 品 对 和 象 也 是 统计 学 家 。 至 于 这 是 好 是 坏 ， 取 决 于 你 从 哪 种 角度 来 看 
待 它 。 

支持 R 的 工具 包 也 有 很 多 ， 你 只 需 把 数据 载 人 到 R 里 面 ， 写 一 两 行 代码 就 可 以 创建 出 数据 图 
形 。 比 如 说 ， 你 可 以 利用 Portfolio 工 具 包 快速 创建 出 板块 层级 图 (treemap )， 如 图 3-19 所 示 。 
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图 3-19 ”在 R 中 利用 Portfolio 工 具 包 生成 的 板块 层级 图 ( 为 见 彩 插图 3-19 ) 


创建 热度 图 也 同样 简单 ， 如 图 3-20 所 示 。 

当然 ， 还 可 以 创建 更 多 传统 的 统计 图 表 ， 例 如 散 点 图 和 时 间 序 列 图 ， 我 们 将 会 在 第 4 章 中 对 
此 进行 深入 讨论 。 

坦 日 说 , R 的 网 站 看 起 来 极为 落后 ( 见 图 3-21 ), 而 且 软 件 本 喘 在 引导 新 用 户 方面 做 得 不 够 好 。 
不 过 你 要 记 住 ，R 毕 葛 是 一 门 编程 语言， 等 习 任何 语言 都 必须 经 历 开 头 的 艰难 。 我 也 读 a 到 过 一 些 
关于 R 的 负面 评论 ， 但 通 篆 都 是 那些 习惯 于 按钮 或 者 鼠标 操作 的 人 在 发 牢骚。 所 以 如 果 你 打算 使 
用 R， 不 要 对 用 户 界 面 的 期 街 过 高 ， 否 则 你 一 定 会 党 得 它 很 不 友好 。 
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图 3-20 ”R 生 成 的 热度 图 
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图 3-21 R 的 网 站 首页 http://www.r-project.org 
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但 如 末 殉 服 了 这 一 点 ， 我 们 就 能 用 R 做 很 多 事情 。 它 能 够 生成 达到 印刷 品质 的 图 片 〈 至 少 也 
是 钛 形 )， 而 且 极 其 灵活 。 如 果 愿 意 ， 你 可 以 写 出 目 己 的 函数 或 者 程序 包 ， 按 目 己 想 要 的 方式 来 
创建 图 形 ， 或 者 你 也 可 以 全 用 R 函 数 库 里 其 他 人 开发 的 成 品 。 

R 提 供 了 基础 的 绘图 功能 ， 使 用 它 ， 你 基本 上 可 以 随心 所 欲 地 绘制 想 要 的 图 形 ， 例 如 线条 、 
形状 以 及 框架 坐标 轴 。 所 以 和 其 他 编程 工具 一 样 ， 能 限制 你 的 只 有 想象 力 而 已 。 事 实 上 ,任何 一 
种 图 表 类 型 都 能 通过 R 或 者 R 的 工具 包 实 现 。 





提示 在 搜索 引擎 中 搜索 有 关 肛 的 内 容 时 ， 它 的 本 名 可 能 会 带 来 很 多 不 相干 的 结果 。 可 以 尝试 以 
“T-project” 作 为 关键 词 ， 这 样 的 搜索 结果 会 更 加 精确 。 





既然 R 这 么 强大 ， 为 什么 还 要 学 习 其 他 工具 呢 ? 为 什么 不 干脆 用 了 R 来 做 所 有 事情 ? 原因 有 以 
下 儿 方 面 ，R 是 在 你 的 果 面 上 运行 的 ， 所 以 它 不 太 适 合 于 动态 网 页 。 存 储 为 图 片 然 后 发 布 到 网 页 
上 并 不 是 问题 ， 但 这 一 过 程 不 会 日 动 完成 。 你 也 可 以 通过 网 页 来 动态 生成 图 片 ， 但 截至 目前 ，R 
的 这 一 功能 还 不 是 特别 强大 ， 无 法 比拟 JavaScript 等 网 页 原生 工具 。 

在 创建 可 交互 图 形 或 动画 方面 ，R 也 不 是 特别 擅长 。 同 样 ， 尽 管 也 可 以 用 R 来 实现 ， 但 还 有 
其 他 更 方便 的 途径 ， 比 如 Flash 或 者 Processing。 

最 后 ， 大 家 也 许 已 经 注 间 到， 图 3-19 和 图 3-20 中 的 图 形 还 欠缺 一 些 雕 琢 。 你 您 怕 不 希望 在 报 
纸 上 看 到 这 种 水 平 的 图 形 。 当 然 ， 你 也 可 以 尝试 依 徘 不 同 的 选项 或 者 添加 代码 来 唱 化 R 的 设计 感 
觉 ， 但 我 的 策略 一 般 是 在 R 中 创建 基本 图 形 ， 然 后 再 利用 Adobe Illustrator 等 绘图 软件 对 其 进行 编 
辑 加 工 (后 文 即将 讨论 ) 如 果 是 用 于 数据 分 析 ， 那么 R 的 原始 输出 就 可 以 了 , 但 如 果 是 用 于 演示 
或 印刷 ， 则 最 好 还 是 从 视觉 和 美感 上 稍 加 调整 。 















































有 用 的 R 资 源 
口 适用 于 统计 运算 的 R 项 目 ( http://www.r-project.org )。 
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学 习 编 程 就 是 在 学 一 门 新 的 语言 , 一 门 有 关 位 和 人 逻辑 的 计算 机 用 语言 。 例如 ， 当 你 使 用 Excel 
或 Tableau 时 , 本 质 上 有 是 在 和 程序 的 翻 详 名 打交道。 按钮 和 沫 单 是 你 玖 悉 的 语言 , 而 当 你 点 击 它们 
时 ,软件 会 把 你 的 行为 翻译 为 指令 ,并 发 送 给 计算 机 。 然 后 计算 机 才 会 服从 你 的 命令 ,例如 生成 
图 片 或 者 处 理 数据 。 

所 以 ,时 间 绝 对 是 主要 的 障碍 。 学 习 一 门 新 的 语言 需要 时 间 。 对 很 多 人 来 说 ， 这 一 障碍 太 高 
本， 对 我 来 说 也 是 如 此 。 你 需要 立刻 完成 工作 ， 因 为 你 面前 有 一 大 堆 数 据 ， 而 且 还 有 人 等 看 要 结 
果 。 如 果 你 只 会 与 数据 打 这 么 一 次 交道 、 以 后 不 会 再 接触 ,那么 选择 开 箱 即 用 的 可 视 化 工具 可 能 


会 更 合适 。 
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不 过 ， 如 末 你 打算 深入 人 研究 你 的 数据 ， 而 且 日 后 可 能 (或 者 希望 日 后 ) 还 会 接触 大 量 与 数 
据 相 关 的 项 目 ， 那 么 现在 花 些 时 间 学 习 编 程 最 终 会 节省 其 他 项 目的 时 间 ， 并 且 作 品 也 会 给 人 留 
下 更 加 深刻 的 印象 。 你 的 编程 技巧 会 在 每 一 次 项 目 中 获得 提高 ， 你 会 发 现 编程 越 来 越 容 易 。 和 
任何 一 门 外 霹 一 样 ， 我 们 都 会 从 基础 学 起 ， 然 后 再 逐步 扩大 范围 ， 不 可 能 从 一 开始 就 用 它 来 车 
| We 

让 我 们 换 一 种 思路 来 看 这 个 问题 。 假设 你 被 护 到 一 个 耻 生 的 国度 ,你 不 会 说 当地 的 语言 , 但 
有 一 名 随 映 翻译 。 如 末 要 和 当地 人 交流 ， 你 会 先 说 出 来 ,然后 让 翻译 去 传递 你 要 表达 的 信息 。 如 
条 翻译 不 理解 你 的 意思 ， 或 者 不 全 你 用 的 某 一 个 词 ， 又 该 怎么 办 ? 他 可 能 会 干脆 忽略 这 个 词 ， 或 
者 如 末 他 足够 聪明 ,说 不 定 去 查 查 字典 。 

对 于 开 箱 即 用 的 可 视 化 工具 来 说 , 软件 本 号 就 是 翻译。 如 果 它 不 知道 该 怎样 做 一 件 事 情 ， 你 
就 只 能 卡 在 那里 , 或 者 不 得 不 寻找 蔡 代 的 解决 办 法 。 和 现实 中 的 翻译 不 同 ,软件 通常 不 会 立刻 学 
会 “新 闻 ”( 在 这 里 指 新 的 图 表 类 型 或 者 数据 处 理 方式 )。 新 的 功能 需 通 过 软件 更 新 获得 ,也 就 是 
说 你 只 能 干 等 着 。 那 么 ， 如 果 你 自己 学 会 了 这 门 语 言 会 怎样 呢 ? 

再 一 次 声明 , 我 并 不 是 说 要 避免 使 用 开 箱 即 用 的 工具 。 我 一 直 都 在 使 用 它们 。 它 们 让 很 多 这 
问 乏味 的 任务 变 得 轻松 容易 ， 这 很 棒 。 但 我 们 不 能 被 软件 限制 住 ， 不 是 吗 ? 

在 后 面 儿 章 大 家 就 会 看 到 , 编程 能 够 带 助 我 们 做 很 多 事情 , 而 且 付 出 的 努力 要 比 徒手 完成 少 
得 多 。 不 过 ,还 是 有 很 多 事情 必须 依 徘 双手 来 完成 ， 尤其 是 当 你 打算 通过 数据 讲 故事 的 时 候 。 这 
也 就 是 下 文 的 内 容 : 可 视 化 的 为 一 面 。 


3.3 ”绘图 软件 


本 贡 内 容 对 于 图 形 设计 师 来 说 应 该 是 非常 熟悉 的 了 。 但 如 果 你 是 一 名 分 析 师 ， 或 者 身 处 技 
术 岗 位 ， 你 可 能 就 会 发 现 自 己 进 入 了 一 个 陌生 的 领域 。 代 码 和 开 箱 即 用 的 可 视 化 工具 确实 能 帮 
助 我 们 实现 很 多 想法 ,但 得 到 的 数据 图 却 总 种 有 目 动 生成 的 感觉 要 么 标记 的 位 置 不 合适 ， 要 
么 就 是 说 明文 字 洒 乱 不 堪 。 如 果 只 是 用 于 分 析 ， 这 通常 也 没有 问题 ， 毕 葛 你 知道 图 中 元 系 的 
意义 。 

但 是 ， 如果 你 制作 的 图 形 要 用 于 演讲 、 报 告 或 者 印刷 出 版 ,那么 经 过 雕琢 的 数据 图 无 疑 更 加 
合适 ， 因 为 这 样 人 们 才能 更 清楚 地 理解 你 要 讲 的 故事 。 

比如 说 ， 图 3-19 是 R 直 接 输 出 的 图 形 。 它 显示 了 FlowingData 网 站 最 受 欢 迎 的 100 篇 文章 的 浏 
唤 次 数 和 评论 数量 。 所 有 文章 都 以 矩形 显示 ， 并 进行 了 分 类 ,例如 Mapping (地 图 ) 类 和 信息 图 
( Infographics ) 类 等 。 绿 色 越 明亮 (对 应 于 灰 度 越 浅 ) 表示 该 文章 获得 的 评论 越 多 ， 和 窍 形 面积 越 
大 表示 该 文章 被 浏览 的 次 数 越 多 。 从 原始 的 图 形 中 你 看 不 出 这 些 ,， 只 有 我 日 己 知道 各 个 元 素 的 意 
义 ， 因 为 R 里 的 代码 是 我 写 的 。 

图 3-22 是 它 的 修订 版 本 。 标 签 都 进行 了 调整 以 便 阅 谈 ， 顶 部 添加 的 说 明文 字 告 诉 旋 者 目 己 正 
在 看 什么 。 颜 色 说 明 中 的 红色 部 分 也 被 去 把 了 ， 因 为 不 可 能 有 负 评 论 数 的 文章 。 此 外 我 还 把 背景 
从 灰色 改 成 了 日 色 ， 这 样 看 起 来 更 加 顺眼 。 
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FlowingData 地 图 


以 下 是 llowingData 网 站 中 师 受 欢迎 的 一 些 文章 。 每 一 个 矩形 代表 一 篇 文章 。 
面积 代表 交 音 的 浏览 次 数 ， 绿色 越 明 完 代 表 闭 得 的 评论 越 多 。 
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图 3-22 ”在 R 中 创建 、 在 Adobe Ilustrator 中 编辑 后 的 板块 层级 图 


我 也 可 以 靠 写 代 码 来 实现 以 上 改动 , 但 在 Adobe Illustrator 里 面 直 接 用 鼠标 操作 要 容易 得 多 。 
你 可 以 完全 用 绘图 软件 来 创建 图 表 , 也 可 以 先 用 R 或 其 他 工具 生成 图 表 , 然后 再 导入 到 设计 软件 
中 加 工 。 前 者 的 可 视 化 类 型 会 受到 一 定 限 制 ， 因 为 这 些 软件 的 主要 用 途 并 不 是 可 视 化 。 要 想 创 
建 比 柱 形 图 更 复杂 的 图 表 ， 那 么 最 好 还 是 选择 后 者 ， 和 否则 你 需要 手工 做 很 多 事情 ， 而 且 容 易 产 
ee 
绘图 软件 的 优势 在 于 你 可 以 更 好 地 控制 单个 元 素 , 而 且 只 需要 鼠标 操作 。 你 可 以 随心 所 欲 地 
改变 柱 形 图 的 颜色 、 调 整 坐标 轴 的 宽度 或 者 添加 注释 。 























3.3.1 可 选项 


市 面 上 有 很 多 绘图 软件 可 供 选 择 , 但 人 们 和 常用 的 就 有 那么 几 球 一 一 而 且 有 一 球 是 几乎 所 有 人 
都 在 用 的 。 价 格 应 该 是 决定 性 因 系 ,这些 软件 的 价格 从 人 免费 ( 且 开 源 ) 到 数 百 美 元 不 等 。 

1. Adobe lllustrator 

任何 看 上 去 像 是 量 吴 定 做、 或 者 出 现在 主流 新 闻 出 版 物 中 的 静态 数据 图 , 都 极 有 可 能 在 一 定 
程度 上 经 过 了 Adobe Tllustrator 的 处 理 。Adobe Illustrator 是 设计 业界 的 标准 。《 纽 约 时 报 》 中 送 印 
的 每 一 幅 图 表 都 是 在 Illustrator 中 创建 或 编辑 的 。 

Illustrator 被 广泛 用 于 印刷 是 因为 它 处 理 的 是 矢量 图 形 ,， 而 非 像 系 。 这 意味 着 你 可 以 将 图 片 无 
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限 放 大 ， 而 不 会 损失 显示 质量 。 相 对 地 ， 如 果 你 放大 的 是 低 分 辨识 的 照片 ( 照 厂 都 是 由 固定 数量 
的 像素 组 成 )， 那 么 就 会 发 现 图 片 出 现 严 重 的 失真 。 

这 球 软 件 最 初 是 为 了 方便 字体 设计 而 开发 的 ， 后 来 在 图 形 设 计 师 当中 受到 欢迎 ， 用 于 logo 设 
计 或 艺术 图 形 绘 制 。 如 今 这 仍然 是 Illustrator 的 主要 用 武之 地 。 

不 过 ，Illustrator 也 提供 了 图 表 工 具 ( Graphtool )， 可 以 生成 一 些 基础 的 图 表 。 我 们 可 以 把 数 
据 精 贴 到 软件 的 小 型 电子 表格 中 ,然后 自动 生成 柱 形 图 、 饼 图 、 时 间 序 列 图 等 基础 图 表 。 不 过 知 
要 注意 的 是 ， 数 据 量 不 能 超出 Hlustrator 的 能 力 范 围 。 

从 数据 图 角度 来 说 ，Illustrator 的 优势 在 于 其 灵活 性 ， 以 及 丰 宦 的 功能 所 囊 来 的 方便 性 。 丰 证 
的 功能 同时 也 币 来 了 更 复杂 的 界面 ， 所 以 新 手 会 感觉 难以 上 手 ， 但 用 不 了 多 久 束 会 适应 。 第 4 草 
将 会 涉及 这 些 内 容 。 而 正 是 因为 Illustrator 功 能 的 灵活 与 丰富 ,数据 设计 师 们 才能 创造 出 各 种 简洁 
明了 的 优秀 图 表 。 

Illustrator 文 持 Windows 和 和 Mac 系统。 它 的 缺点 是 ， 与 用 代码 完成 所 有 事情 相 比 较 而 言 ， 价 格 
比较 昂 轩 ,后 者 是 免费 的 ， 只 要 你 在 电脑 上 安装 好 合适 的 工具 就 行 。 不 过 如 果 和 一 些 开 箱 即 用 的 
工具 相 比 ， 说 实话 Jlustrator 也 贯 不 到 哪里 去 。 

写作 本 书 时 , Adobe 守 网 上 最 新 版 Illustrator 的 标价 是 599 美 元 。 不 过 大 家 应 该 能 在 别处 找到 打 
大 幅 折 扣 的 机 会 (或 者 购买 稍 旧 的 版 本 )。Adobe 对 学 生 和 学 术 界 人 士 都 有 较 大 的 优惠 , 大 家 可 以 
根据 实际 情况 考虑 。( 它 是 我 严 过 的 最 贯 的 软件 ， 但 我 几乎 每 天 都 会 用 到 它 。) 






































有 用 的 Adobe lllustrator 资 源 


口 Adobe JIllustrator 官 方 产品 页 面 ( http://www.adobe.com/products/illustrator/ )。 
口 VectorTuts ( http://vectortuts.com ) 一 一 提供 大 量 Illustrator 的 简明 使 用 教程 。 


2. Inkscape 

Inkscape 是 Adobe Ilustrator 的 免费 是 开源 的 蔡 代 产品 。 如 条 你 想 省 下 这 一 大 笔 开 文 ， 那 么 
Inkscape 是 你 最 好 的 选择 。 我 之 所 以 使 用 Hlustrator， 是 因为 在 我 刚 开 始 学 习 数 据 图 时 ， 周 围 人 全 
都 用 它 ， 自 然 我 也 受到 了 影响 。 不 过 我 经 常 听 到 有 关 Inkscape 的 好 评 ， 而 且 因为 它 是 免费 的 ， 所 
以 试 一 下 没有 坏处 。 只 是 不 要 期 望 有 很 多 教程 资源 。 











提示 本 书 中 主要 通过 Adobe Ilustrator 来 加 工 数据 图 ， 不 过 要 想 在 Inkscape 里 学 会 做 同样 的 事情 
应 该 也 不 会 太 难 。 其 中 许多 工具 和 功能 的 命名 都 是 相似 的 。 


有 用 的 Inkscape 资 源 
口 Inkscape 官 网 (http://inkscape.org ), 
口 Inkscape 教 程 (http://inkscapetutorials.wordpress.com/ )。 
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3. 其 他 软件 

当然 ，Illustrator 和 Inkscape 并 不 是 我 们 的 唯一 选择 ， 只 不 过 有 很 多 人 用 它们 罢了 。 也 许 你 习 
惯 于 其 他 软件 ， 比 如 Corel Draw。Corel Draw 是 一 蒜 只 支持 Windows 系 统 的 软件 ,价格 和 Illustrator 
大 致 相当 ， 有 些 地 方 可 能 会 卖 得 稍微 便宜 一 点 。 

此 外 还 有 一 些 程序 会 提供 规模 较 小 的 工具 集 ， 例 如 Aviary and Lineform 出 品 的 Raven 。 
Ilustrator 和 JInkscape 属 于 图 形 设计 师 的 综合 性 工具 ， 所 以 它们 具备 的 功能 较 多 。 但 如 果 你 只 是 想 
对 已 有 图 形 进行 少量 编辑 ， 不 妨 选 择 更 加 简单 (也 更 加 便宜 ) 的 软件 。 








3.3.2 ”取舍 


绘图 软件 的 目的 就 是 方便 人 们 绘图 。 它 们 并 非 专 用 于 数据 图 ， 而 是 针对 整个 图 形 设 计 领 域 ， 
很 多 人 会 发 现在 Illustrator 和 Inkscape 里 有 不 少 功能 都 用 不 上 。 这 类 软件 在 处 理 大 型 数据 方面 也 比 
不 上 编程 或 专业 可 视 化 工具 。 因 此 ， 你 也 不 能 利用 它们 探索 和 分 析 数 据 。 

不 过 如 采 你 布 望 制作 出 用 于 印刷 的 数据 网 ， 这 类 软件 是 必 不 可 少 的 。 它 们 不 仅 能 提升 美感 ， 
而 且 还 能 提高 可 谈 性 和 清晰 度 ， 而 这 些 都 是 目 动 生成 的 图 片 难以 企及 的 。 
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用 于 绘制 地 理 数据 的 工具 与 上 文 的 可 视 化 工具 之 间 存 在 一 些 交 集 。 不 过 随 着 近年 来 地 理 
数据 的 显著 增多 ， 我 们 绘制 此 类 数据 图 的 手段 也 层出不穷 。 如 今 移 动 定 位 服务 持续 升温 ， 随 
之 也 将 出 现 更 多 这 有 经 纬度 坐标 的 数据 。 地 图 也 是 一 种 非常 直观 的 数据 可 视 化 方式 ， 仁 得 我 
们 关注。 

在 互联 网 发 展 的 早期 ,绘制 电子 地 图 并 不 容易 ， 效 果 也 谈 不 上 讲究 。 还 记得 当年 在 访问 
MapQuest 网 站 时 ,必须 和 完 找 到 东南 西北 , 然后 才能 得 到 一 小 幅 静 态 地 图 吗 ? Yahoo! 也 曾 提 供 过 类 
似 的 服务 。 

这 一 情况 直到 数 年 后 Google 实 现 了 顺 滑 地 图 (slippy map ) 技术 后 才 有 所 改观 ( 见 图 3-23 )。 
顺 滑 地 图 技术 存在 了 好 一 段 时 间 , 但 直到 人 们 的 网 速 快 到 足够 应 付 地 图 的 连续 更 新 , 它 才 体现 出 
真正 的 价值 。 我 们 今天 使 用 的 地 图 服务 都 用 到 了 这 一 技术 。 除 了 能 轻松 地 移动 、 缩 放 地 图 以 便 碍 
找 方 回 之 外 ， 地 图 也 是 浏览 某 些 数据 集 的 主要 接口 。 




















说 明 顺 滑 地 图 技术 是 一 种 如 今 广泛 使 用 的 地 图 实现 技术 。 大 型 的 地 图 通常 都 会 超出 显示 器 
屏幕 的 范围 ， 因 此 会 被 分 割 为 较 小 的 图 片 ， 或 者 说 区 块 (tile )。 只 有 在 显示 器 区 域内 
的 区 块 会 显示 ， 其 他 的 都 被 隐藏 起 来 。 当 用 户 拖 动 地 图 时 ， 其 他 区 块 才 会 显示 ， 给 用 
户 “ 正 在 拖 动 一 整 幅 地 图 ”的 感觉 。 大 家 在 查看 高 分 状 率 照片 时 可 能 也 曾 遇 到 过 类 似 
的 处 理 方 式 。 
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图 3-23 ”利用 Google Maps 来 查找 方向 
3.4.1 可 选项 


随 春 各 类 型 的 地 理 数 据 纷 纷 消 入 到 公众 领域 , 绘制 这 些 数据 的 工具 也 开始 涌现 。 其 中 一 些 只 
需要 编写 一 点 点 代 但 就 能 运行 ,另外 一 些 则 需要 多 花 些 工夫 。 此 外 ,还 有 一 些 工 具 根本 束 不 需要 
编程 。 

1. Google、Yahool 和 Microsoft 地 图 

这 是 最 容易 的 在 线 工 具 ， 不 过 需要 一 些 编程 技巧 才能 实现 。 你 的 编程 能 力 越 剖 ， 就 能 通过 
Google 、Yahoo! 和 Microsoft 提 供 的 地 图 API 来 完成 越 多 的 事情 。 

这 三 者 的 基本 功能 都 很 相似 ,但 如 果 你 是 新 手 , 我 会 推荐 Google， 因 为 它 似乎 最 为 可 徘 。 它 
提供 了 基于 JavaScript 和 Flash 的 地 图 API, 以 及 其 他 一 些 地 理 相关 服务 , 例如 地 形 编码 和 方向 查找 
等 。 你 可 以 从 入 门 指南 开始 ， 然 后 再 扩展 到 其 他 功能 ， 例 如 放置 标记 〈 见 图 3-24 )、 绘 制 路 径 或 
者 添加 窗 产 图 等 。 面 面 俱 到 的 教程 和 代码 片段 应 该 能 让 你 很 快 上 手 。 

Yahoo! 也 提供 了 基于 JavaScript 和 Flash 的 地 图 API， 以 及 一 些 地 理 相 关 服 务 , 但 就 该 公司 的 现 
状 来 看 ,我 不 确定 它 还 能 文 撑 多 久 。 在 本 书写 作 时 ，Yahoo! 的 角色 已 经 由 积极 的 应 用 开发 者 转变 
为 单纯 的 内 容 提 供 商 。Microsoft 同 样 提供 了 一 个 JavaScript 的 API ( Bing 旗 下 的 产品 ) 和 一 个 
Silverlight 支 持 的 API( Microsoft 的 Flash 版 本 )。 
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口 Google 地 图 API 系 列 ( http://code.google.com/apis/maps/ )。 
口 Yahoo! 地 图 Web 服 务 ( http://code.google.com/apis/maps/index.html )。 
口 Bing 地 图 API (http://www.microsoft.com/maps/developers/web.aspx )。 


2. ArcGIS 

从 核心 上 来 看 , 之 前 提 到 的 在 线 地 图 服务 提供 的 只 是 一 些 基 本 的 功能 。 如 果 你 想 从 中 得 到 更 
高 级 的 地 理 数 据 图 , 惑 介 就 只 能 徘 自 己 来 实现 某 些 功能 。 而 条 面 地 图 软件 ArcGIS 则 正好 相反 。 它 
是 一 球 大 型 软件 ， 可 以 处 理 大 批量 的 数据 ， 还 提供 了 平 消 、 合 成 等 众多 其 他 功能 。 你 可 以 在 用 户 
界面 中 完成 所 有 的 事情 ， 所 以 也 不 需要 写 代 人 码 。 

任何 配 有 地 图 绘制 人 员 的 图 形 设计 部 门 基 本 上 都 在 用 ArcGIS， 专 业 的 地 理 制图 师 也 在 用 
ArcGIS。 还 有 很 多 人 训 欢 它 。 如 果 你 对 制作 详尽 的 地 理 数据 图 感 兴趣 ， 那 么 ArcGIS 值 得 一 试 。 

我 只 在 部 分 项 目 中 用 过 ArcGIS, 因为 只 要 情况 允许 , 我 一 般 都 倾 癌 于 徘 编 程 来 实现 ， 而 且 我 
不 需要 它 提 供 的 所 有 功能 。 功 能 丰富 谤 来 的 不 利 的 一 面 是 按钮 和 菜单 元 系 过 多 。 你 也 可 以 使 用 它 
的 在 线 和 服务 天 解决 方案 ， 但 相 较 于 其 他 实现 方式 而 言 ， 这 些 都 显得 有 些 深 拙 。 





口 ArcGIS 的 官方 产品 页 面 ( http://www.esri.com/software/arcgis/ )。 
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3. Modest Maps 

我 在 图 3-13 的 例子 中 曾 提 到 过 Modest Maps， 它 显示 了 沃尔玛 的 成 长 史 。Modest Maps 是 一 个 
Flash 和 ActionScript 的 区 块 拼 接地 图 男 数 库 ， 并 且 文 持 Python。 它 由 一 群 了 解 在 线 地 图 的 人 维护 ， 
而 且 他 们 不 仅 是 因为 客户 而 工作 , 还 因为 这 是 他 们 的 爱好 。 从 这 个 角度 你 应 该 能 大 概 了 解 到 这 个 
也 数 库 的 质量 。 

Modest Maps 更 像 一 个 框 涤 ， 而 不 仪 只 是 一 个 地 图 API ( 类 似 Google 提 供 的 那 种 )。 它 只 提供 
极 少 的 必 备 条 件 , 方便 你 创建 在 线 地 图 ,然后 就 退 到 一 边 让 你 随心 所 欲 地 实现 。 你 可 以 使 用 来 源 
不 同 的 地 图 区 块 ， 也 可 以 根据 需要 定制 。 比 如 说 ， 图 3-13 是 填 色 与 蓝 色 的 主题 ,但 你 也 可 以 轻松 
地 改 成 红色 和 白色 ( 对 应 于 深 色 和 日 色 )， 如 图 3-25 所 示 。 
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图 3-25 ”利用 Modest Maps 创 建 的 红 白 主题 地 图 





pa 


Modest Maps 是 以 BSD 许 可 协议 发 布 的 ， 所 以 你 可 以 免费 用 它 来 做 任何 事情 。 不 过 你 还 是 需 
要 对 Flash 和 ActionScript 有 所 了 解 ， 相 关 的 基础 知识 将 会 在 第 8 草 介绍 。 

4. Polymaps 

Polymaps 有 点 像 JavaScript 版 本 的 Modest Maps。 它 由 同一 群 人 中 的 一 部 分 人 开发 及 维护 ， 提 
供 同样 的 功能 而 且 还 不 止 这 些 。Modest Maps 只 能 进行 基础 的 地 图 绘制 ， 而 Polymaps 却 有 一 
些 内 置 的 功能 ， 例 如 区 域 密 度 图 ( choropleth， 见 图 3-26 ) 和 和 气泡 图 。 

由 于 是 JavaScript， 它 给 人 的 感觉 更 加 轻便 ( 因为 需要 的 代码 更 少 )， 不 过 只 能 文 持 现代 浏览 
合 。Polymaps 通 过 可 缩放 和 失 量 图 形 ( Scalable Vector Graphics，SVG ) 来 显示 数据 ， 所 以 不 能 在 老 
版 本 的 Internet Explorer 中 运行 ， 但 大 部 分 人 都 是 与 时 俱 进 的 。FlowingData 网 站 只 有 5% 的 访问 者 
还 在 用 低 版 本 的 浏览 器 ， 而 且 我 佑 计 这 一 比例 很 快 就 会 下 降 为 零 。 
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图 3-26 显示 失业 率 的 区 域 密度 图 ， 通 过 Polymaps 实 现 





我 品 欢 JavaScript 地 图 也 数 库 的 妨 一 个 原因 是 所 有 的 代码 都 在 麟 览 瘟 内 原生 运行 ,你 无 需 任 何 
编 详 或 者 Flash 答 出 ， 因 此 执行 起 来 更 加 容 吻 ， 而 且 也 便于 日 后 更 新 。 








有 用 的 Polymaps 资 源 
口 Polymaps 官 方 网 站 ( http://polymaps.org/ )。 
5. R 


R 的 基础 版 本 中 并 未 提供 地 图 绘制 功能 , 但 有 一 些 工具 包 能 帮助 我 们 。 图 3-27 就 是 我 在 R 中 绘 
制 的 一 张 地 图 。 注 释 是 后 期 在 Adobe Hlustrator 中 添加 的 。 


R 中 的 地 图 在 使 用 上 存在 限制 ， 而 且 相 关 的 文档 也 不 够 详尽 。 因 此 我 只 在 数据 足够 简单 ， 而 
有 目 磁 巧 正在 使 用 R 时 才 会 用 它 来 创建 地 图 。 在 其 他 的 情况 下 ， 我 会 使 用 上 述 的 工具 。 


有 用 的 R 地 图 资源 


口 地 区 数据 分 析 ( http://cran.r-project.ore/web/views/Spatial.html ) 一 一 有 关 地 区 分 析 的 综 
合 性 R 工 具 包 列表 。 


口 地 理 统计 制图 实用 指南 ( http://spatial-analyst.net/book/download ) 一 一 关于 如 何 使 用 RR 
及 其 他 工具 分 析 空 间 数 据 的 可 免费 下 载 的 电子 书 。 
6. 在 线 工 具 
还 有 一 些 在 线 工 具 也 能 帮 你 可 视 化 地 理 数据 。 在 多 数 情况 下 , 它们 会 调用 人 们 了 最 第 使 用 的 地 
图 类 型 ， 然 后 把 不 重要 的 内 容 剥 去 一 一 有 点 类 似 人 简化 版 的 ArcGIS。 人 免费 的 工具 有 Many Eyes 和 
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GeoCommons, 前 者 我 们 曾经 讨论 过 , 它 只 有 一 些 基础 功能 , 而 且 只 能 以 国家 或 美国 各 州 为 单位 。 
GeoCommons 的 功能 更 多 ， 而 且 交 互 方式 更 加 多 样 化 ， 此 外 还 能 人 处理 常见 的 地 理 文 件 格 式 ， 例 如 
shapefile 和 KML。 





1970 一 2005 年 
美国 的 人 工 流 。 怀俄明 州 的 人 工 流产 率 纽约 州 的 人 工 流 产 率 
产 率 最 低 ， 只 有 2%o， 最 高 ， 达 到 507%o。 
| 1970 年 至 今 只 上 报 14 起 。 1970 年 至 今 上 报 有 124 849 起 。 


佛罗里达 州 的 人 工 流 产 率 第 二 高 ， 达 到 
人 工 流产 数 (每 千 名 新 生 婴 儿 中 ) 409%o， 但 与 纽约 州 相 比 要 低 得 多 。 


69 及 以 下 200 及 以 上 
无 数据 








图 3-27 RR 中 创建 的 美国 地 图 


此 外 还 有 一 些 付 费 工 具 ， 其 中 Indiemapper 和 SpatialKey 是 最 有 用 的 。SpatialKey 更 偏 问 于 业务 
分 析 和 决策 制定 , Indiemapper 则 更 适合 制图 员 和 设计 师 。 图 3-28 就 是 我 用 Indiemapper 生 成 的 例子 ， 
只 花 了 几 分 钟 时 间 。 





人 均 犯罪 数 


13a. 2 


从 2 .223 
23. D2 
02.97 
7.91 





图 3-28 ”Indiemapper 中 创建 的 区 域 密度 图 
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3.4.2 ”取舍 


各 种 形式 的 地 图 工具 能 满足 我 们 不 同 的 需求 。 只 学 会 一 球 软 件 , 然后 就 能 设计 出 各 种 地 图 无 
疑 是 最 理想 的 ， 但 很 遗憾 这 种 方法 行 不 通 。 

比如 说 ，ArcGIS 的 功能 很 丰富 , 但 如 果 你 只 需 创 建 简单 的 地 图 ,就 没 必要 花 时 间 去 学 习 它 复 
杂 的 界面 ， 也 不 值得 花 钱 去 购买 。 而 R 提 供 基 础 的 地 图 功能 ， 而 且 还 免费 ， 但 可 能 达 不 到 你 想 要 
的 效果 。 如 果 你 希望 创建 在 线 的 、 可 交互 的 地 图 ， 可 以 选择 开源 的 Modest Maps 或 Polymaps， 但 
它们 又 需要 更 高 的 编程 技能 。 在 第 8 草 你 将 会 学 到 如 何 使 用 各 种 可 用 的 工具 。 


3.5 衡量 各 种 可 选项 


以 上 列 出 的 数据 可 视 化 工具 也 许 并 不 完全 , 但 用 它们 作为 起 步 应 该 足够 了 了 。 不 过 我 们 还 是 需 
要 考虑 和 权衡 。 使 用 何 种 工具 主要 取决 于 你 想 完 成 的 目标 ， 而 且 同 一 个 任务 会 有 多 种 完成 途径 ， 
甚至 在 同一 个 软件 中 都 是 如 此 。 想 设计 静态 数据 图 ?” 不 妨 试 一 下 R 或 者 Hlustrator。 想 为 某 个 Web 
应 用 创建 可 交互 图 表 ? 那么 请 试 试 JavaScript 或 者 Flash 。 

在 FlowingData 网 站 上 ， 我 发 起 了 一 次 调查 ， 询 问 人 们 主要 使 用 什么 来 分 析 和 可 视 化 数据 。 
有 超过 1000 人 进行 了 回应 ， 其 结果 如 图 3-29 所 示 。 



































你 用 什么 来 分 析 和 可 视 化 数据 ? 
1112 名 回应 者 

Excel 

R 

Tableau 


Tllustrator 


Actionscript/Flash 


Processing 
SAS 

纸 和 笔 
其 他 


FlowingData 调 查 ，2010 年 9 月 





图 3-29 ”FlowingData 的 访问 者 都 用 什么 来 分 析 和 可 视 化 数据 
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我 们 可 以 看 到 有 儿 个 明显 的 领先 者 。Excel 排 名 第 一 ， 而 R 紧 随 其 后 。 但 此 后 软件 的 选择 开始 
分 化 。 有 超过 200 人 选择 了 了 “其他” 类别。 在 评论 中 ,很 多 人 表示 他 们 使 用 多 球 工 具 来 满足 不 同 
的 需求 ， 从 长 期 来 看 这 也 是 最 好 的 途径 。 


混合 使 用 


很 多 人 虱 豆 欢 坚 持 用 一 区 软件 一 一 这 样 更 舒适 轻松 , 不 用 竺 任何 新 的 东西 。 如 来 这 真 的 有 效 
的 话 ， 他 们 当然 可 以 继续 下 去 。 但 当 我 们 与 数据 打交道 足够 久之 后 ， 束 会 遭遇 软件 的 憩 贷 。 你 知 
道 目 己 硕 望 实现 的 效 来 ， 但 软件 部 不 允许 你 这 么 做 ， 或 者 给 你 制造 一 些 不 必要 的 麻烦 。 

你 要 么 接受 现实 , 要么 使 用 别 的 软件 , 虽然 需要 时 间 去 学 习 , 但 却 有 助 于 实现 你 的 愿景 一 一 
我 会 选择 后 者 。 千 握 多 种 工具 可 以 确保 你 不 会 陷 人 僵局 ， 而 且 让 你 更 加 多 才 多 艺 ,， 轻 松 应 对 各 种 
可 视 化 任务 并 得 到 满意 的 结 采 。 




















3.6 小结 


请 记 住 ,在 这 些 工 具 中 没有 哪 一 个 是 万 用 民 方 。 归 根 绪 底 ， 对 数据 的 分 析 和 设计 取决 于 你 日 
己 。 工 具 仅 只 是 工具 而 已 ， 你 手中 拿 者 锤子 并 不 代表 着 你 就 能 建造 高 楼 大 厦 。 即 使 你 的 计算 机 再 
强劲 , 安 闻 了 再 强大 的 软件 ， 如 果 你 不 知 直 如 何 运用 这 些 工 具 , 它们 就 没有 任何 价值 。 允 想 好 要 
提出 什么 问题 、 使 用 何 种 数据 、 强 调 哪些 方面 ， 那么 在 真正 实践 的 过 程 中 一 切 就 会 容易 许多 。 

不 过 你 是 芋 运 的 , 因为 我 们 马上 惑 会 谈 到 这 些 。 后 续 章 下 将 会 涵 兰 那些 重要 的 数据 设计 概念 ， 
并 教 大 家 如 何 将 抽象 的 理论 付 诸 实践 〈 通 过 上 述 的 各 种 工具 )。 你 会 学 到 从 数据 中 找寻 亮点 并 实 
现 可 视 化 的 方法 。 























有 天时 间 趋 势 的 可 视 化 


时 间 序 列 数据 无 处 不 在 。 熏 论 在 变化 ， 人 口 在 迁移 , 企业 在 发 展 。 我 
们 通过 时 间 序 列 数据 来 观察 这 些 事物 是 如 何 变化 的 。 本 章 会 分 别 讨论 离散 
时 间 和 和 延续 时 间 的 数据 ,因为 不 同 的 数据 类 型 决 趾 了 图 表 的 表现 形式 。 我 


们 还 会 亲身 体验 RR 和 各 Adobe Tllustrator 的 强大 功能 


实现 的 效果 简直 太 棒 了 。 


结合 使 用 这 两 款 软件 
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4.1 在 时 间 中 寻求 什么 


我 们 每 天 都 在 看 时 间 。 它 在 电脑 里 , 手表 上 ,， 手机 中 ,以 及 其 他 能 看 到 的 任何 地 方 。 即 使 没 
有 钟表 , 我 们 也 会 从 日 第 起 居 和 日 升 日 阔 中 感受 到 时 间 。 获得 有 关 时 间 的 数据 是 再 自然 不 过 的 事 
情 ， 它 让 我 们 了 解 到 事物 正在 如 何 变 化 。 

不 管 是 延续 性 还 是 暂时 性 的 时 间 数 据 , 我 们 最 第 想 的 是 从 中 发 现 趋势 。 某 个 东西 是 在 上 升 还 
是 下 降 ? 是 否 存在 周期 性 的 循环 ? 要 想 找 出 这 些 变化 中 存在 的 模式 , 就 必须 超越 单个 数据 点 ， 纵 
观 全 局 。 只 观察 菏 个 时 间 点 上 的 数值 当然 更 轻松 , 但 只 有 在 了 解 到 来 龙 去 脉 之 后 , 你 才 会 对 这 个 
数值 产生 更 深刻 的 理解 。 而 且 你 对 数据 了 解 得 越 多 ， 你 所 讲 的 故事 就 越 有 感染 力 。 

比如 说 ， 奥 巴 蕊 政府 在 总 统 就 职 一 年 后 公布 了 一 份 图 表 ， 我 在 图 4-1 中 进行 了 重新 绘制 。 它 
显示 了 从 布什 印 任 到 奥巴马 上 任 之 初 这 段 时 间 内 的 失业 情况 。 












































美国 新 的 就 业 机 会 


2008 年 2008 年 2009 年 2009 年 2010 年 2010 年 
1 月 0 月 ] 月 6 月 1 月 6 月 
| oe | 90 Sl | 2 


就 业 新 增 


就 业 流 





Source: Bureau of Labor Statistics | Nathan Yau 
图 4-1 巴 拉 克 … 奥巴马 执政 后 失业 的 变化 


从 上 图 看 来 , 似乎 新 政府 对 失业 产生 了 显著 的 积极 效果 。 但 如 果 把 当前 图 表 缩 小 ， 以 更 长 的 
时 间 范 围 来 观察 呢 ( 见 图 4-2 ) ?你 是 否 会 得 出 不 一 样 的 结论 ? 

尽管 很 多 人 都 希望 能 了 解 全 局 , 但 关注 细节 也 同样 很 有 价值 。 有 没有 数值 存在 异常 ? 有 没有 
不 规则 的 时 间 段 ? 有 没有 呈现 出 剧烈 的 上 升 或 下 降 ? 如 果 有 , 是 什么 原因 导致 的 ? 一 般 来 说 , 这 
些 不 符 常 规 的 地 方正 是 我 们 应 该 关注 之 处 。 当 然 它 也 可 能 是 因为 数据 条 目 中 出 现 了 错误 。 放 上 腿 全 
局 ， 了 解 事件 的 整个 背景 ， 这 能 帮助 你 甄别 它 到 底 属于 何 种 情况 。 
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美国 新 的 就 业 机 会 


2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 


就 业 人 数 | | | | | | 
(单位 : 千 ) 


6oo ”就 业 新 增 < 布什 政府 。 奥巴马 政府 ， 


一 ”就 业 流失 





Source: Bureau of Labor Statistics | Nathan Yau 


图 4-2 ”2001 一 2010 年 的 失业 变化 


4.2 ”时 间 中 的 离散 点 


时 间 数 据 可 以 分 为 离散 时 间 和 延续 时 间 两 种 。 理解 自己 的 数据 属于 何 种 类 型 ,你 才能 选择 正 
确 的 可 视 化 方法 。 在 离散 型 时 间 数 据 中 ,数据 来 自 于 某 个 具体 的 时 间 点 或 者 时 段 ， 可 能 的 数值 也 
是 有 限 的 。 比 如 说 ， 人 们 每 年 的 考试 通过 率 就 是 离散 型 数据 。 人 们 去 考试 ， 然 后 事件 就 结束 了 。 
考试 有 具体 的 日 期 ， 而 且 人 们 的 分 数 也 不 会 再 发 生变 化 。 而 类 似 温 度 这 样 的 数据 则 是 延续 型 的 ， 
在 一 天 当中 的 任何 时 刻 都 可 以 去 测量 它 ， 而 且 它 一 直 都 在 变化 。 

在 本 中 你 将 会 看 到 适用 于 可 视 化 离散 型 时 间 数 据 的 图 表 类 型 ， 并 且 通 过 实例 学 习 如 何在 R 
和 lllustrator 中 创建 这 些 图 表 。 在 每 种 类 型 的 一 开始 我 都 会 作 人 简要 介绍 , 其 中 涉及 的 设计 模式 将 贯 
穿 本 章 ， 因 此 这 些 部 分 非常 重要 。 虽 然 实例 针对 的 都 是 具体 图 表 , 但 其 设计 原则 是 通用 的 ， 所 有 
类 型 的 可 视 化 都 可 以 借鉴 。 不 要 忘 了 ， 要 建立 大 局 意识 。 




















4.2.1 柱 形 


柱 形 图 是 最 第 见 的 图 表 类 型 ,你 可 能 见 过 不 少 , 甚至 还 绘制 过 一 些 。 柱 形 图 适用 于 多 种 类 型 
的 数据 ， 我 们 先 看 看 在 时 间 数 据 中 如 何 使 用 它 。 

图 4-3 显 示 了 基本 的 框 染 。 时 间 轴 (水平 轴 , 也 就 是 x 轴 ) 显示 了 按 先 后 顺序 排列 的 各 时 间 点 。 
本 图 中 显示 的 时 间 点 是 月 份 ， 从 2011 年 1 月 到 6 月 ,你 也 可 以 显示 年 份 、 日 期 或 其 他 时 间 单 位 。 柱 
形 的 宽度 和 彼此 之 间 的 间隔 一 般 不 代表 数值 。 
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从 0 开始 的 数 
值 标识 出 图 : 
表 的 刻度 3 柱 形 宽度 


时 间 轴 
根据 月 份 灵 水 数值 ， 按 先后 顺序 排列 





图 4-3” 柱 形 图 的 基本 框 染 


数值 轴 (重生 轴 ， 也 就 是 y 轴 ) 标识 出 图 表 的 尺度 。 图 4-3 显 示 的 是 线性 标尺 ( linear scale )， 
各 单位 在 整 条 轴线 上 均匀 分 布 。 柱 形 高 度 与 数值 轴 相 对 应 。 比 如 说 第 一 个 柱 形 达 到 了 1 个 单位 ， 
而 最 高 的 柱 形 达到 了 4 个 单位 。 

这 很 重要 。 体现 数 值 的 视觉 线索 就 是 柱 形 的 高 度 。 数 值 越 小 ， 柱 形 就 越 艇 ; 数值 越 大 ， 柱 形 
就 越 蜗 。 所 以 我 们 可 以 看 到 4 个 单位 的 柱 形 ( 4 月 ) 的 高 度 是 2 个 单位 的 柱 形 (2 月 ) 的 两 倍 。 

许多 程序 默认 将 数值 轴 上 的 最 小 值 设 为 数据 集中 的 最 小 仁 ， 如 网 4-4 所 示 。 本 例 中 的 最 小 值 
是 1。 然 而 ， 如 采 数 值 轴 从 1 开始 ,那么 2 月 柱 形 的 高 度 就 不 再 是 4 月 柱 形 高 度 的 一 半 了 。 看 上 去 2 
月 是 4 月 的 1/3。 而 且 1 月 的 柱 形 也 消失 了 。 所 以 请 永远 保持 数值 轴 尺 度 从 0 开始 标注 。 和 否则 你 的 柱 
形 图 就 可 能 会 显示 出 错误 的 关系 。 

















1 月 2 月 3 月 4 月 5 月 6 月 
2011 





图 4-4 ”数值 轴 不 从 0 开始 的 柱 形 图 
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提示 “处理 的 数据 都 是 正 数 时 ， 请 永远 让 柱 形 图 的 数值 轴 从 0 开始 ， 否 则 会 让 人 们 难以 从 视觉 上 
比较 各 柱 形 的 高 度 。 


1. 创建 柱 形 图 

是 时 候 制 作 你 的 第 一 张 图 表 了 。 我 们 使 用 的 数据 是 真实 的 , 来 日 人 类 历史 上 最 重要 的 赛事 近 
30 年 的 比赛 成 绩 。 这 一 赛事 绝对 值得 被 每 一 个 人 铭记 一 一 它 就 是 享誉 国际 的 “内 森 杯 ” 热 狗 大 胃 
王 比 赛 ! 

图 4-5 是 最 终生 成 的 图 表 。 我 们 会 分 两 步 完 成 。 首 先 在 R 中 创建 基本 柱 形 图 ,然后 在 Ilustrator 
中 进行 完善 。 

如 果 你 还 不 知道 这 项 巡回 赛事 ， 不 妨 稍微 了 解 一 下 :“ 内 和 森 杯 ”热狗 大 胃 王 比赛 每 年 举 
办 一 次 ， 日 期 是 在 7 月 4 日 ， 也 就 是 美国 独立 日 。 它 实在 太 受 欢迎 了 ， 连 ESPN 电 视 台 都 会 进 
行 直 播 。 

在 20 世 纪 末 期 ， 获 胜 者 能 在 约 15 分 钟 内 吃 下 10 ~ 20 个 热狗 面包 (hot dogs and buns，HDB )。 
然而 在 2001 年 ,来自 日 本 的 专业 级 食客 小 林 尊 ( Takeru Kobayashi ) 以 50 个 HDB 的 成 绩 做 视 群雄 ， 
比 他 之 前 的 世界 冠军 超出 了 整整 一 倍 还 要 多 。 直 到 这 时 故事 才 开 始 进入 高 测 。 


























热狗 大 胃 王 

每 年 7 月 4 日 举办 的 “内 森 杯 ”热狗 大 胃 王 比赛 始 于 20 世 纪 初 ， 但 直到 2001 
年 才 开 始 获得 广泛 关注 。 当 时 来 目 日 本 的 选手 小 林 章 横 空 出 世 ， 一 举 将 
该 项 世界 纪录 刷新 至 之 前 的 两 倍 多 。 绿 色 显 示 的 柱 形 表示 新 纪录 。 





70 (个 HDB) Joey Chestnut 是 自 1999 年 以 来 的 首 
60 个 美 籍 冠 军 ， 他 干掉 了 66 个 HDB。 


50 小 林 尊 于 2001 年 首 夺 和 冠军 。 
此 后 他 连续 5 年 成 功 卫冕 。 

40 

30 Frank Dellarosal 尺 21.5 


个 HDB 刷 新 世界 纪录 。 


RE ER RR RE ER RR 
1980 1982 1984 1986 1988 1990 19921994 19961998 2000 2002 2004 2006 2008 2010 


Source: Wikipedia | Nathan Yau 





图 4-5 ”显示 “内 和 森 杯 ” 热 狗 大 胃 王 比赛 成 绩 的 柱 形 图 


维基 百科 提供 了 这 项 赛事 从 1916 年 至 今 的 所 有 成 绩 , 但 大 骨 王 比赛 从 1980 年 开始 才 成 为 一 项 
各 规 赛 事 ， 所 以 我 们 可 以 从 这 里 开始 。 数 据 是 以 HTML 表 格 形式 呈现 的 ,包括 了 赛事 年 度 、 选 手 
姓名 、 吃 挥 的 HDB 数 量 和 获胜 者 的 国籍 。 我 已 经 把 数据 编辑 成 了 了 CSV 文件 ， 大 家 可 以 到 
http:/Wdatasets.flowingdata.com/hot-dog-contest-winners.csv 下 载 。 数 据 的 开头 五 行 是 这 样 的 : 
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Year Winner "Dogs eaten"，LoOUntry" New record 
1980,"Paul Siederman & Joe Baldini",9.1,"United States'" 
1981，Thomas DeBerry ",11,'United States'",0 

1982,"'Steven Abrams ",11,'United States’,0 

1983,"Luis Llamas “,19.5,"Mexico",l 

1984,"Birgit Felden ",9.5,"Germany'",0 


也 访 问 http://datasets.flowinedata.com/hot-dog-contest-winners.csv 下 载 CSV 格 式 的 数据 。 在 维基 
百科 网 站 可 以 浏览 “内 森 杯 ”热狗 大 胃 王 比赛 的 历史 以 及 未 经 编辑 的 数据 。 





使 用 read .csv 〇 命令 在 R 中 载 和 数据。 你 可 以 从 自己 电脑 上 本 地 载 人 CSV 文 件 , 也 可 以 通过 
URL 加 载 。 要 想 实 现 后 者 ， 可 以 在 R 中 输入 下 面 这 行 代码 : 





hotdogs <- 
read.csvt'"'http://datasets.f lowingdata.com/hot-dog-contest-winners.csv'", 
sep=",", header=TRUE) 











如 果 你 打算 从 自己 电脑 上 本 地 载 人 数据 文件 ， 请 通过 主 菜 单 把 R 的 工作 路 径 设 为 你 的 数据 文 
件 所 在 的 文件 夹 : 点 击 File (文件 ) 菜单 下 的 Change dir...( 修改 目录 ) 选项 。 当 然 你 也 可 以 使 用 
setwd() 吨 数 来 设置 。 

如 采 你 是 不 熟悉 编程 ， 可 能 会 难以 理解 以 上 代码 ,我 们 把 它 拆 开 来 讲解 。 这 是 一 行 R 代 人 码 ， 
目的 是 通过 read.csv 〇 命令 载 人 数据 ， 其 中 有 3 个 参数 。 第 一 个 是 数据 的 来 源 位 置 ， 本 例 中 是 一 
个 URL 地 址 。 

第 二 个 参数 sep 指 定 了 数据 文件 中 分 隔 各 列 的 字符 是 什么 。 这 是 一 个 逗号 分 隔 文 件 ， 所 以 将 
它 指定 为 逗号 。 如 条 是 一 个 制 表 符 分 隔 的 文件 ， 就 再 要 用 \t 来 代 答 逗 扎 ， 表 明 分 隅 符 是 制 表 符 。 

最 后 一 个 参数 header 告 诉 R 数 据 文件 是 有 标 头 的 , 它 包含 有 每 一 列 的 名 称 。 第 一 列 是 赛事 年 
度 ， 第 二 列 是 获胜 者 姓名 ,第 三 列 是 吃 掉 的 HDB 数 量 ， 第 四 列 是 该 获胜 者 的 国籍 。 你 可 能 注意 到 
我 还 添加 了 一 个 新 的 字段 new record。 如 琳 该 年 度 的 世界 纪录 被 打破 ， 那 么 值 就 取 1; 否则 就 是 
0。 我 们 很 快 就 会 用 到 它 。 

现在 数据 已 经 守信 到 R， 可 以 通过 hotdogs 变 量 来 读 取 。 技 术 上 来 说 ， 数 据 其 实 是 被 存储 为 
一 个 数据 块 ( data frame )， 这 一 点 并 不 重要 ， 但 从 概念 来 说 是 如 此 。 如 果 键 人 hotdogs 就 会 看 到 
类 似 如 下 的 数据 块 〈 开 头 部 分 ) 












































Year Winner Dogs.eaten Country New.record 
1 1980 Paul Siederman & Joe Baldini 9.10 Umted States 0 
2 1981 Thomas DeBerry 11.00 United States 
3 1982 Steven Abrams 11.00 United States 0 
4 1983 Luis Llamas 19.50 Mexico 1 
5 1984 Birgit Felden 9.50 Germany 0 


列 名 称 中 的 空格 已 经 被 替换 为 句点 。Dogs eaten 现 在 变 成 了 Dogs.eaten，New record 也 
是 如 此 。 要 访问 具体 某 一 列 数据 ， 你 需要 在 数据 块 名 称 后 面 加 上 美元 符号 ($ )， 然 后 再 加 上 该 列 
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的 名 称 。 比 如 要 访问 Dogs .eaten 列 ， 你 需要 输入 : 
hotdogs$Dogs.eaten 
现在 R 中 已 经 有 了 数据 ， 可 以 直接 通过 barp1ot 〇 命令 来 绘图 了 。 
barplot(hotdogs$Dogs.eaten) 
这 行 代 码 告 诉 R 绘 制 出 Dogs .eaten 列 ， 应 该 会 得 到 图 4-6。 


| 


图 4-6 ”通过 R 的 barp1otO 〇 命令 默认 生成 的 热狗 数量 图 表 





OO 








不 赖 ,但 你 还 能 做 得 更 好 。 通 过 在 barp1lot() 里 设置 names .arg 参 数 来 指定 每 一 个 柱 形 的 名 
称 。 在 本 例 中 也 就 是 每 次 赛事 的 举办 年 份 。 
barplot(hotdogs$Dogs.eaten, names.arg=hotdogs$Year) 


这 样 就 能 得 到 图 4-7。 图 表 的 底部 出 现 了 标记 。 


pr 


1980 1984 1988 1992 1996 2000 2004 2008 








图 4-7 带 有 年 份 标记 的 柱 形 图 
还 有 很 多 其 他 参数 可 以 设置 。 你 可 以 添加 坐标 轴 标 签 、 修 改 边框 和 颜色 ， 如 图 4-8 所 示 。 


barplot(hotdogs$Dogs.eaten, names.arg=hotdogs$Year, col="red", 
border=NA，xlab=" 年 份 "，ylab=" 吃 挥 的 HDB 数量 ") 


其 中 的 co1 参 数 可 以 让 你 选择 颜色 ( 在 R 的 说 明文 档 中 有 标明 ), 或 者 采用 16 进 制 的 色彩 编码 ， 
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例如 #821122。 同 时 你 用 NA 指定 了 去 除 边框 ， 这 是 一 个 逻辑 第 数 ， 代表 没 有 数值 。 此 外 你 还 分 别 
以 “年 份 ” 和 “ 吃 反 HDB 数 量 ”标记 了 x 轴 和 y 轴 。 


1980 1984 1988 1992 1996 2000 2004 2008 
年 份 


呈 
性 
aa 
四 
呆 
Re 
二 
区 














图 4-8 ”设置 颜色 及 坐标 轴 标 记 后 的 柱 形 图 


并 不 是 只 能 用 一 种 颜色 。 通 过 为 barp1ot 0) 提供 多 种 颜色 ,你 可 以 给 想 要 的 柱 形 着 色 。 比 如 
说 你 想 突出 显示 美国 人 获胜 的 年 份 ， 那 么 就 把 该 年 度 的 柱 形 显示 为 暗 红 色 ( #821122 )， 而 让 其 
他 柱 形 显示 为 浅 灰 色 ， 如 图 4-9 所 示 。 


吃 掉 的 HDB 数 量 


1980 1984 1988 1992 1996 2000 2004 2008 
年 份 





图 4-9 ” 柱 形 呈 现 多 种 色彩 的 柱 形 图 
要 实现 这 一 目的 ， 你 需要 创建 一 个 列表 〈 也 就 是 R 里 面 的 癌 量 ) 用 于 着 色 。 访 问 每 一 年 的 数 
据 然后 决定 相应 的 柱 形 应 该 采用 哪 种 颜色 。 如 条 是 美国 人 获胜 , 指定 为 瞳 红色 ; 否则 指定 为 灰色 。 
以 下 是 相关 代码 : 
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fill_colors <- 《CO 
for ( i in 1l:length(hotdogs$Country) ) 1 


if (hotdogs$Country[i] == "United States") { 
fill_colors <- c(fill_colors, "#821122") 
} else { 


fill_colors <- c(fill_colors, "#cccccc") 


} 
} 


第 一 行 启用 了 一 个 名 为 fi11_colors 的 空 问 量 ( vector )。 我 们 用 c(O) 来 在 R 里 创建 向 量 。 

第 二 行 开始 了 一 个 for 循 环 。 代 码 告诉 R 在 名 为 i 的 索引 中 进行 循环 ， 其 中 i 从 1 开始 ， 最 高 值 
是 hotdogs 数 据 块 的 所 有 行 数 。 具体 来 讲 , 你 从 hotdogs 数 据 块 中 取得 一 个 列 , 本 例 中 是 Country 
列 ， 然 后 找到 它 的 长 度 。 如 果 只 是 对 hotdogs 用 1ength()， 就 只 能 得 到 它 的 列 数 ， 也 就 是 5。 但 
我 们 要 的 是 它 的 行 数 ， 应 该 是 31。1980 一 2010 年 的 每 一 年 都 占 一 行 ， 所 以 循环 会 在 括号 中 执行 31 
遍 代 码 ， 其 中 每 循环 一 次 ， 索 3 引 i 都 会 加 1。 

所 以 在 第 一 次 循环 中 ， 也 就 是 i 征 于 1 时 ，R 会 检查 第 一 行 ( 也 就 是 1980 年 ) 的 获胜 国 是 否 为 
美国 。 如 果 是 ， 就 在 fi11_colors 中 添加 颜色 #821122 (一 种 暗 红 色 ， 以 16 进 制 形式 显示 )。 如 
果 不 是 ， 则 添加 颜色 #cccccc， 也 就 是 浅 灰 色 。 




















说 明 大 多 数 编程 语言 的 数组 或 向 量 都 以 0 开始 ,也 就 是 索引 的 第 一 项 从 0 开始 引用 。 不 过 R 中 的 
向 量 是 从 1 开始 的 。 





1980 年 的 获胜 者 来 自 美 国 ， 所 以 我 们 执行 前 者 。 之 后 循环 会 检查 余下 的 30 个 年 份 。 在 R 的 控 
制 台 中 键入 fi11_colors 可 以 看 到 程序 运行 的 结果 。 这 是 一 组 按 我 们 需要 建立 的 色彩 值 癌 量 。 
以 下 代码 可 以 把 fi11_colors 这 组 癌 量 传递 到 barp1ot0) 的 co1 参 数 中 去 ， 以 便 显 示 更 新 后 
的 柱 形 图 。 
barplot(hotdogs$Dogs.eaten, names.arg=hotdogs$Year, col=fill_colors, 
border=NA, xlab="Year", ylab="Hot dogs and buns (HDB eaten'") 


这 段 代 码 和 之 前 的 基本 一 样 ， 只 不 过 在 co1 人 参数 中 用 fi11_colors 代 奉 了 之 前 的 "red"。 

不 过 ， 图 4-5 中 的 最 终 图 表 突 出 显示 的 是 纪录 被 刷新 的 年 份 ， 而 不 是 美国 获胜 的 年 份 。 没 
关系 ， 整 个 过 程 和 逻辑 思路 是 一 样 的。 你 只 需 修 改 一 些 条 件 即 可 。 在 数据 块 中 的 New. record 
列 代表 的 是 纪录 是 否 被 刷新 ， 所 以 如 果 它 是 1， 就 使 用 暗 红 色 ， 否 则 使 用 灰色 。 以 下 是 R 中 实现 
的 代码 。 

fill_colors <- c(t) 

for (C 1 in l:length(hotdogs$New.record) ) { 

if thotdogs$New.record[i] == 1) { 
fill colors <- c(fill_ colors, "#82]1122") 


} else { 
fill_colors <- cc(fill_colors, '"#cccccc") 
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} 
} 


barplot(hotdogs$Dogs.eaten, names.arg=hotdogs$Year, col=f1ill_colors, 
border=NA, xlab="Year", ylab="Hot dogs and buns HDB) eaten'") 


代码 与 美国 获胜 的 例子 基本 一 样 ， 但 在 if 语句 中 略 有 变化 。 结 果 应 该 如 图 4-10 所 示 。 


1980 1984 1988 1992 1996 2000 2004 2008 
年 份 








呵 
注 
名 
全 
a 
到 
投 
也 











图 4-10” 柱 形 呈 现 多 种 色彩 的 柱 形 图 ， 不 过 运用 的 条 件 和 图 4-9 不 同 
现在 你 可 以 试 一 下 barplot 〇 里 的 其 他 选项 ， 例 如 柱 形 间隔 或 者 添加 标题 。 


barplot(hotdogs$Dogs.eaten, names.arg=hotdogs$Year, col=fill_colors, 
border=NA, space=0.3, xlab="Year’", ylab="Hot dogs and buns (HDB)Y 
eaten") 


这 样 你 就 能 得 到 图 4-11。 注 意 柱 形 间 阳 较 之 前 更 党 ， 而 且 顶 部 也 出 现 了 标题 。 





1980 一 2010 年 “内 森 杯 ”热狗 大 胃 王 比赛 


1980 1984 1988 1992 1996 2000 2004 2008 
年份 


呵 
大 
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沐 
Ey 





图 4-11 带 有 目 定 义 间隔 和 主 标题 的 柱 形 图 
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提示 在 选择 柱 形 间隔 时 需要 小 心 。 如 果 间 隔 的 宽度 和 柱 形 宽度 相近 ， 视 觉 上 就 会 产生 振动 效 
应 (vibration effect )， 给 人 感觉 柱 形 和 间隔 的 角色 发 生 了 互 换 。 


嘿 ! 你 的 第 一 次 R 符 试 已 经 成 功 完 成 了 ! 
先 选 中 图 表 的 显示 窗口 ， 然 后 在 File ( 文件 ) 有 亲 单 中 选择 保存 图 表 。 将 图 表 你 行为 PDF 文 件 ， 
你 马上 就 会 用 到 和 它 。 


提示 “要 想 查 阅 尺 中 函数 的 说 明文 档 ， 只 需要 输入 一 个 英文 问号 再 加 上 函数 名 称 即 可 。 比 如 要 在 
R 中 查阅 barplot() ， 只 需 输 入 ?barp1ot，R 就 会 提供 该 函数 的 描述 以 及 所 有 可 用 参数 的 
解释 说 明 。 通 常 还 会 有 可 运行 的 实例 ， 非 常 有 帮助 。 


2. 在 lllustrator 中 完善 图 表 

现在 你 有 了 一 张 基础 的 柱 形 图 ， 看 起 来 还 不 赖 。 如 果 你 只 用 它 来 方便 目 己 分 析 ， 那么 就 没 必 
要 再 进行 加 工 了 。 但 如 果 你 希望 把 它 制 成 可 单独 发 布 的 图 表 ， 就 得 再 论点 工夫 让 它 更 具 可 读 性 。 

让 我 们 从 讲 故 事 的 角度 来 看 ,假设 你 是 一 位 读者 , 无 意 中 看 到 了 图 4-11 这 张 尚未 完善 的 图 表 ， 
你 从 中 能 获得 哪些 信息 ?你 能 看 出 它 显 示 的 是 每 年 被 吃 挥 的 热狗 面包 它 是 否 记 录 的 是 某 个 人 的 
饮食 习惯 ? 很 明显 对 普通 人 来 说 这 些 热狗 也 太 多 了 点 。 或 者 是 给 动物 吃 的 ? 吃 剩 的 会 拿 去 喂 乌 
吗 ? 或 者 是 每 个 人 每 年 平均 食用 的 热狗 数量 ? 为 什么 有 些 柱 形 的 颜色 还 不 一 样 呢 ? 

作为 绘制 图 表 的 人 , 你 了 解数 学 背后 的 上 下 文 背景 , 但 是 你 的 读者 不 了 解 。 所 以 你 必须 对 正 
在 发 生 什么 作出 解释 。 好 的 数据 设计 可 以 帮助 读者 更 清楚 地 理解 整个 故事 。Illustrator 可 以 帮助 你 
做 到 这 一 点 。 通 过 它 你 能 直接 修改 图 中 的 每 一 个 元 素 ， 比 如 调整 字体 、 添 加 说 明 、 修 改 坐标 轴 、 
编辑 颜色 ， 完 成 你 能 想象 到 的 任何 效果 。 















































提示 “站 在 读者 的 角度 来 设计 数据 图 表 。 有 哪些 部 分 需要 加 以 解释 ? 


提示 “如 果 你 没有 Illustrator， 可 以 尝试 InkScape， 它 是 免费 且 开 源 的 替代 工具 。 虽 然 它 在 功能 或 
界面 上 和 Tllustrator 不 太一 样 ， 但 仍然 可 以 从 中 找到 许多 共同 点 。 


本 书 只 是 用 Illustrator 对 图 表 稍 作 修 改 。 但 在 学 习 了 更 多 实例 ， 并 有 旦 开始 自己 设计 图 形 时 ,你 
就 会 发 现 这 些小 小 的 改动 能 极 大 地 改进 图 表 ， 让 它们 更 加 简洁 明了 。 

让 我 们 先 走 好 第 一 步 。 在 Illustrator 里 打开 刚才 柱 形 图 的 PDF 文 件 。 你 应 该 会 在 一 个 窗口 中 看 
到 自己 制作 的 图 表 ， 此 外 还 有 其 他 一 些小 面板 提供 了 各 种 工具 , 包括 颜色 和 字体 面板 。 最 值得 注 
意 的 是 Tools (工具 ) 面板 ， 如 图 4-12 所 示 。 你 会 经 常用 到 它 。 如 果 你 在 界面 中 找 不 到 Tools 面 板 ， 
可 以 在 Window( 窗口 ) 采 单 中 单 击 Tools 选 项 来 打开 它 。 
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图 4-12 Justrator 的 Tools 面 板 


面板 上 的 黑色 箭头 图 标 被 称 为 “选取 工具 ”( Selection tool )。 选 中 它 ， 你 的 鼠标 指针 就 会 变 
成 一 个 黑色 箭头 。 单 击 并 拖 动 鼠标 , 选择 图 表 的 整个 边框 。 此 时 边框 会 高 觉 显示 ,如 图 4-13 所 示 。 
它 在 Ilustrator 中 被 称 为 “ 剪 切 索 版 (clipping mask ) ”。 在 许多 情况 下 这 个 东西 都 很 有 用 ， 但 现 
在 你 不 用 在 意 它 。 单 击 Delete 键 把 它 删 除 。 如 末 这 个 操作 删除 了 整个 图 表 ， 撤 销 本 次 操作 ， 然 后 
使 用 直接 选取 工具 ( Direct Selection tool )， 也 就 是 白色 箭头 图 标 ， 它 能 直接 选中 剪 切 索 版 。 














1980 一 2010 年 “内 森 杯 ”热狗 大 胃 王 比赛 成 绩 
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图 4-13 ”删除 PDF 的 前 切 蒙 版 


J 在 译 者 使 用 的 Adobe Illustrator CS5 版 本 中 ， 打 开 R 输 出 的 PDF 后 似乎 并 未 出 现 剪 切 蒙 版 ,可 以 直接 选择 图 表 。 
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现在 尝试 改变 字体 ， 这 个 操作 很 简单 。 再 次 使 用 选择 工具 ， 单 击 你 想 编辑 的 文本 来 选中 它 。 
在 “字体 ”( Font ) 面板 中 通过 下 拉 菜 单 选择 你 喜欢 的 字体 ,如 图 4-14 所 示 。 你 也 可 以 通过 “文字 ” 














(Type ) 菜单 来 改变 字体 。 图 4-15 中 的 字体 已 经 被 改 成 了 Georgia Regular。 


[Georgia a 
|Reg ular [了 ] 


示 辐 5 同 六 图 077m 国 
坑 六 0 网 本 条 


TT 100% | 了] ]T 篇 [100% [了 ] 
和 Bim 同 全 加 ” 同 
[于 | aa sharp | 史 ] 


Language: | English: USA 





图 4-14 ”Tlustrator 中 的 “字体 ”面板 


1980 一 2010 年 “内 森 杯 ”热狗 大 骨 王 比赛 成 绩 
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图 4-15 ”字体 改 为 Georgia Regular 后 的 图 表 


下 一 步 ,， 数值 轴 上 的 那些 数字 标签 也 需要 调整 。 现 在 的 数字 都 是 侧 立 的 , 应 该 将 其 正 过 来 以 
提高 可 该 性 。 单 击 那些 数字 ， 你 会 注意 到 其 他 元 素 也 会 被 选中 。 这 是 因为 数字 和 其 他 元 素 默认 属 
于 一 个 群 组 "。 你 需要 先 打 散 群 组 才能 旋转 各 个 数字 ， 可 以 在 Object ( 对 象 ) 菜单 中 找到 Ungroup 
(取消 编组 ) 选项 并 点 击 。 取 消 已 选 定 的 数字 标签 ， 然后 再 选择 它们 ， 此 时 不 再 是 选中 整个 组 了 ， 
只 有 数字 会 被 选中 。 有 的 时 候 你 可 能 需要 打 散 好 儿 次 群 组 才能 只 选中 想 要 的 对 象 。 或 者 你 也 可 以 
通过 直接 选择 工具 来 选取 想 要 的 元 素 。 

选中 各 个 数字 后 ， 回 到 “Object” 荣 单 ， 选 择 Transform (变换 ) 一 Transform Each (分 别 变 


换 )。 在 图 4-16 所 示 的 面板 中 ， 将 旋转 角度 设置 为 -90? 。 然 后 单 击 “确定 ”( OK ) 按钮 。 现 在 数 

















J 在 Adobe Illustrator CS5 版 本 中 ， 打 开 R 输 出 的 PDF 后 似乎 并 未 出 现 群 组 ， 可 以 直接 选择 图 表 。 
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字 标 签 就 虱 正 过 来 了。 
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图 4-16 ”Transform Each 面板 


保持 现在 的 选中 状态 不 变 ， 将 数字 标签 往 上 、 右 方 移动 〈 不 包括 刻度 线 )， 让 它们 从 刻度 线 

















的 左 侧 移动 到 刻度 线 的 上 方 。 你 可 以 用 键盘 上 的 方 回 键 来 移动 对 象 ， 或 者 百 接 用 鼠标 拖 动 它们 。 
此 外 还 可 以 修改 y 币 左 侧 的 文本 ,并 将 其 移动 到 y 轴 的 项 部 右 侧 。 这 样 也 能 提高 可 读 性 ， 因 为 读者 
的 视线 一 般 会 从 左 到 右 移动 。 

为 了 证 图表 更 加 简洁 ， 你 还 可 以 去 掉 数 值 轴 上 的 垂 特 线 。 它 对 于 数据 传递 并 没有 多 大 玫 助 。 
请 留意 在 图 4-5 的 最 终 图 表 中 只 有 和 刻度 线 。 如 果 你 用 选择 工具 点 击 垂下 线 ， 有 可 能 那些 标签 也 会 
锌 选中 ， 这 是 因为 它们 默认 在 一 个 和 群 组 内 。 可 以 用 和 直接 选择 工具 选中 这 根 线 ， 然 后 兢 Delete 键 ， 
它 束 会 消失 。 现 在 你 的 图 表 应 该 和 图 4-17 类 似 。 














1980 1982 1984 1986 


图 4-17 ”人 简化 数值 轴 后 的 柱 形 图 





提示 数据 图 的 目的 是 显示 数据 本 身 。 尝 试 去 掉 所 有 多 余 的 元 素 。 
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现在 你 的 岁 表 已 经 和 网 4-5 更 加 接近 了 。 不 过 它 依然 缺少 一 些 东 西 。 在 水 平 轴 上 没有 任何 刻 
度 线 、 图 表 也 缺少 注释 ， 而 且 如 果 图 表 中 包含 了 绿色 会 更 好 ， 因 为 绿色 是 “内 和 森 杯 ”热狗 大 完 的 
标志 色 之 一 。 

创建 刻度 线 有 很 多 种 方法 ， 比 如 说 通过 钢笔 【Pen ) 工具 ,你 可 以 轻而易举 地 画 出 一 条 直线 。 
在 “工具 ”面板 中 选择 该 图 标 ， 然 后 在 “ 描 边 ”( Stroke ) 面板 中 指定 线条 的 样式 。 将 笔触 粗细 设 
置 为 0.3 pt， 并 确定 “虚线 ”( Dashed Line ) 复 选 框 没有 被 选中 。 

要 男 一 根 线 ， 先 在 你 希望 的 地 方 ( 比如 第 一 个 柱 形 的 正 下 方 ) 单 击 鼠 标 确定 线段 的 一 端 ， 然 
后 在 稍 下方 再 次 单 击 鼠 标 确定 另 一 端 。 如 有 果 在 第 二 次 单 击 时 按 住 Shift 键 ,线段 就 会 日 动 呈 现 徘 百 
或 水 平 状态 。 现 在 你 应 该 画 出 了 第 一 根 刻 度 线 。 你 还 需要 30 条 这 样 的 线段 ， 因 为 每 一 年 都 需要 一 
个 刻度 。 

你 可 以 一 根 一 根 把 它们 都 画 出 来 ， 但 还 有 更 好 的 办 法 。 如 采 你 用 的 是 Mac， 按 住 Option 键 ; 
如 果 你 用 的 是 PC， 则 按 住 Alt 键 。 用 选择 工具 单 击 之 前 画 出 的 刻度 线 然 后 拖 动 到 你 希望 下 一 根 刻 
度 线 所 在 的 位 置 ( 比如 第 二 个 柱 形 的 正 下 方 ， 稍 有 偏 移 也 没关系 )。 在 这 个 过 程 中 要 保持 按 住 
Option 或 Alt 键 , 然后 松 开 鼠标 。 这 个 操作 会 创建 一 个 副本 ,所 以 你 现在 应 该 有 两 根 刻度 线 了 。 现 
在 松 开 Option 或 Alt 键 ， 再 按 一 下 Command+D (Mac ) 或 Ctrl+D 组 合 键 (PC )。 这 个 操作 会 复制 一 
根 新 的 刻度 线 ， 而 且 它 与 第 二 根 线 的 距离 与 前 两 根 线 的 间距 相等 。 持 续 按 Command/Ctrl+D 组 合 
键 ， 直 到 获得 足够 多 的 刻度 线 为 止 。 

最 后 ， 还 要 适当 排列 一 下 所 有 的 刻度 线 。 将 最 后 一 根 刻度 线 移动 到 最 后 一 个 柱 形 的 正 下 方 。 
第 一 根 刻度 线 应 该 已 经 位 于 第 一 个 柱 形 的 正 下 方 了 。 现 在 选中 所 有 的 刻度 线 ， 然 后 在 “对 齐 ” 
(Alisgn ) 面板 ( 见 图 4-18 ) 中 单 击 “ 水 平 居 中 分 布 ”( Horizontal Distribute Center ) 图 标 。 





















































Align Objects: 


Distribute Objects: 


Distribute Spacing: Align To: 
Ed 


flor 志和 
图 4-18 ”Tllustrator 中 和 的“ 对齐” 面板 


这 个 操作 会 重新 分 配 每 根 刻度 线 的 间距 , 使 它们 均匀 分 布 在 首 末 两 根 刻度 线 之 间 。 你 还 可 以 
用 选择 工具 选中 偶数 位 的 刻度 线 ,， 然后 缩短 它们 的 垂 百 长度。 这 样 能 更 明显 地 表现 出 稍 长 的 刻度 
线 对 应 了 已 有 的 年 度 标 签 。 

要 想 把 填充 色 从 红色 改 为 绿色 , 可 以 用 直接 选择 工具 选中 每 一 个 红色 和 矩形。 由 于 这 些 和 矩形 数 
量 不 多 , 选 起 来 还 比较 快 。 但 如 采 有 很 多 矩形 需要 选中 怎么 办 ? 你 可 以 先 选 中 一 个 红色 柱 形 ， 然 
后 在 薪 单 中 单 击 “选择 ”(Select ) 一 “相同 ”( Same ) 一 “填充 颜色 ”( Fill Color )。 这 个 操作 能 
满足 你 的 要 求 ， 选 中 所 有 以 红色 项 充 的 元 素 。 现 在 只 需 在 “颜色 ”( Color ) 面板 中 设置 你 想 要 的 
颜色 即 可 。 你 可 以 在 这 里 改变 边框 色 和 项 充 色 ,， 不 过 目前 上 只 需 改 动 填 充 色 就 行 了 了 ， 效 末 如 图 4-19 
所 示 。 
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图 4-19 ”改变 图 表 元 素 的 颜色 


在 “工具 ”面板 中 找到 文字 (Type ) 工具 ,可 以 在 图 表 中 添加 文本 。 这 是 一 个 给 图 表 加 注释 、 
阐明 所 有 疑点 的 好 机 会 。 选 择 你 想 要 的 字体 、 字 号 和 样式 ， 以 便 和 图 表 中 其 他 标记 文字 〈 例如 坐 
标 轴 标 签 ) 区 分 开 来 。 

在 这 个 重要 非凡 的 热狗 图 表 中 , 有 3 个 年 度 可 以 着 重 强 调 , 包括 1980 年 后 的 第 一 次 纪录 刷新 、 
小 林 香 的 统治 伊始 和 Joey Chestnut 代 表 美 国共 鬼 。 同 时 还 需要 添加 图 表 标 题 和 说 明 ， 以 便 点 明 整 
幅 图 表 的 要 上 绅 。 

最 后 也 是 相当 重要 的 一 点 : 别 筷 了 诬 加 数据 来 源 。 除 此 之 外 没 办 法 证 明 你 的 图 表 的 准确 性 。 














提示 ”确保 在 你 的 图 表 中 提供 了 数据 来 源 。 它 不 仅 提 升 了 可 信 度 ， 而 且 还 提供 了 上 下 文 背景 。 


所 有 因素 加 在 一 起 ， 你 就 得 到 了 最 终 的 图 表 ， 和 图 4-5 中 的 一 样 。 

你 可 能 需要 一 段 时 间 来 消化 这 些 内 容 , 但 当 你 和 图 表 打 的 交道 越 多 时 , 这 一 切 就 会 变 得 越位 
单 。 如 果 你 理解 了 刚才 的 所 有 操作 ， 就 能 发 现 用 R 或 其 他 任何 语言 编写 代码 所 遵循 的 模式 。 而 且 
虽然 Hlustrator 博 大 精深 ,你 也 已 经 掌握 了 其 中 一 些 常 用 的 功能 。 

后 续 的 例子 会 涉及 有 关 时 间 数 据 的 其 他 图 表 类 型 ， 而 且 会 继续 用 到 R 和 Tllustrator。 鉴 于 你 已 
经 了 解 了 这 两 款 软件 的 基础 知识 ,后面 的 进度 将 略 有 加 快 。 




















4.2.2” 柱 形 的 堆 妓 


如 图 4-20 所 示 , 堆 琶 柱 形 图 的 几何 形状 与 凋 规 柱 形 图 很 相似 , 区 别 目 然 在 于 矩形 都 彼此 堆 重 。 
如 采 数 据 存 在 子 分 类 ， 且 各 子 分 类 之 和 有 意义 ， 我 们 就 可 以 用 到 堆 和 琶 柱 形 图 。 

和 柱 形 图 一 样 ， 堆 番 柱 形 图 可 以 用 于 多 种 数据 类 型 ， 并 不 只 针对 时 间 数 据 。 不 过 在 图 4-19 的 
例子 中 ，x 轴 是 按 月 显示 的 。 
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通过 从 0 开始 的 
数值 ， 标 识 出 ， 
图 表 的 刻度 


内 部 柱 形 高 度 
 。 代表 该 子 类 别 的 数值 


i 
: 柱 形 高 度 
代表 每 月 的 总 数值 


a 





图 4-20” 堆 苹 柱 形 图 的 基本 框架 

创建 堆 共 柱 形 图 

堆 县 柱 形 图 也 是 很 稼 见 的 图 表 类 型 ， 有 多 种 制作 方法 。 我 们 的 例子 是 用 R 来 实现 的 。 制 作 过 
程 和 创建 常规 柱 形 图 很 相似 。 

(1) 载 人 数据 。 

(2) 确保 数据 有 适当 的 格式 。 

(3) 通过 某 个 R 函 数 来 创建 图 形 。 

每 次 用 R 制 作 数 据 图 表 你 都 会 经 过 这 三 个 步骤 .有 时 你 可 能 会 在 某 个 步骤 中 花费 更 多 的 时 间 。 
也 许 是 要 琢磨 数据 的 格式 ， 也 许 是 必须 目 己 写 函 数 才 能 实现 某 种 效 朱 。 但 不 管 怎样 ， 你 总 会 经 过 
以 上 三 个 步 又， 而 且 在 其 他 语言 中 也 是 如 此 ， 后 面 几 草 中 你 就 会 见 到 。 

回 到 堆 礁 柱 形 图 ， 证 我 们 再 看 看 “内 条 杯 ” 热 狗 大 骨 王 比赛 。 我 们 后 面 不 会 再 看 到 有 关 热 狗 
的 数据 ， 所 以 请 尽情 享受 这 一 刻 。 图 4-21 是 我 们 硕 望 实现 的 效 末 。 

这 一 次 ,我 们 不 再 只 是 观察 赛事 冠 盏 吃 掉 的 热狗 数量 ， 而 是 扩大 到 每 年 的 前 三 甲 选 手 。 每 一 
个 堆 硬 都 代表 一 个 年 份 , 包含 三 个 柱 形 ,每 一 个 柱 形 代 表 一 位 前 三 甲 选手 。 维 基 百 科 从 2000 年 才 
有 相关 的 数据 记录 ， 所 以 我 们 也 由 此 开始 。 

让 我 们 先 走 好 第 一 步 ， 在 R 中 载 入 数据 。 你 可 以 直接 从 以 下 URL 获 得 数据 。 

hot_dog_places <- 


read.csvt'http://datasets.flowingdata.com/hot-dog-places.csyv, 
sep=",", header=TRUE) 


输入 hot_dog_p1aces 查 看 数据 。 每 一 列 显示 了 该 年 度 的 比赛 结果 , 每 一 行 分 别 表示 冠 、 亚 、 





























X2000 X2001 X2002 X2003 X2004 X2005 X2006 X2007 X2008 X2009 X2010 
1 23 30.0 530.5 44.3 33.5 49 34 G66 9 68.0 54 
2 24 31.0 26.0 30.5 38.0 37 2 63 9 64.5 43 
3 ee Rh LI ds da 32 37 49 42 535.0 到 
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热狗 大 胃 王 前 三 甲 


在 小 林 尊 参加 “内 容 杯 ”热狗 大 家 王 比赛 之 前 ， 前 三 里 的 实力 都 
非常 接近 。 然 而 在 2001 一 2005 年 间 ， 小 林 苯 点 是 过 遂 领先 其 他 
选手 。 这 一 情况 在 2006 年 Joey Chestnut 参 赛 后 发 生 了 变化 ，。 


200 (个 HDB) 


‘08 “09 “10 


Source: Wikipedia | Nathan Yau 








图 4-21 显示 2000 一 2010 年 各 年 度 大 胃 王 前 三 甲 的 堆 羞 柱 形 图 


所 有 的 列 名 称 都 以 “X” 开 头 ， 这 是 R 在 载 和 数据 时 目 动 洪 加 的 ， 因为 R 不 到 欢 标 尖 的 名 称 是 
数字 ， 所 以 它 强 加 了 一 个 字母 让 它们 更 像 一 个 单词 〈《 用 更 专业 的 词汇 来 说 就 是 字符 串 )。 最 终 
表 里 的 坐标 轴 标 签 会 显示 这 些 列 名 称 ， 所 以 你 需要 把 它们 改 回来 。 

namesthot_dog_places) <- cf 2000"， "2001”, "2002",， "2003"， "2004", 

"2005",， "2006",， "2007",， "2008"，"2009"，"2010") 

把 每 个 年 份 用 双 引 号 括 起 来 ， 用 于 指明 它 是 一 个 字符 串 。 再 次 输入 hot_dog_p1aces， 标 头 
现在 只 剩 下 年 份 了 。 

2000 200]1 2002 2003 2004 2005 200b 2007 2008 2009 2010 

1 25 530.0 50.5 44.5 53.5 49 54 66 59 68.0 94 


2 24 31.0 26.0 30.5 38.0 37 52 日 59 64.5 43 
3 22 23.5 23.3 29.53 32.0 32 37 49 42 3.0 37 
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和 之 前 一 样 ， 我 们 将 用 到 barp1ot 0 国 数 ,但 会 是 另 一 种 格式 。 要 想 把 上 面 的 所 有 数值 都 传 
递 给 barp1ot()， 你 需要 把 hot_dog_places 转 换 成 一 个 矩阵 (matrix )。 现 在 它 还 只 是 一 个 数据 
块 。 这 两 者 在 R 中 的 结构 是 不 同 的 ， 不 过 其 中 的 区 别 就 目前 来 说 并 不 重要 。 你 只 需要 知道 如 何 将 
数据 块 转换 成 矩阵 就 行 了 。 

hot_dog_matrix <- as.matrix(hot dog_places) 

你 已 经 把 我 们 新 创建 的 矩阵 存储 为 hot_dog_matrix。 现 在 可 以 把 它 传递 给 barpl1ot()。 


barplot(hot_dog_matrix, border=NA, space=0.25, ylim=c(0, 200), 
xlab="Year", ylab="Hot dogs and buns (HDBs) eaten", 
main="Hot Dog Eating Contest Results, 2000-2010") 


你 指定 了 柱 形 没有 边框 、 间 距 是 柱 形 宽 度 的 0.25 倍 、 数 值 轴 的 范围 是 0 ~ 200， 并 加 上 了 图 表 
的 标题 和 坐标 轴 标 签 。 结 果 如 图 4-22 所 示 。 

















2000 一 2010 年 “内 森 杯 ”热狗 大 胃 王 比赛 成 绩 


呵 
攻 
器 
A 
二 
反 
摧 
3 


2000 2002 2004 2006 2008 2010 
年 份 





图 4-22 ”利用 R 创 建 的 堆 私 柱 形 图 


儿 行 代码 就 能 得 到 这 个 效果 ， 很 不 赖 。 不 过 你 还 可 以 继续 完善 它 。 将 图 形 存储 为 PDF 格 式 ， 
并 用 Illlustrator 打 开 。 通 过 之 前 用 过 的 那些 工具 ， 你 可 以 添加 文本 、 修 改 字体 、 科 化 垂直 轴 、 利 用 
“选择 相同 填充 色 的 对 象 ”功能 来 统一 编辑 闫 色 ， 当 然 别 忘 了 还 要 标明 数据 来 源 ( 见 图 4-23 )。 

最 后 添加 一 段 文 字 说 明 ， 再 修改 一 下 图 表 的 总 标题 ， 岁 4-21 显 示 了 最 终 的 结 

我 们 在 下 一 章 会 认识 堆 和 登 柱 形 图 的 表 兄 种 : 堆 著 面积 图 。 它 们 在 几何 上 非常 相似 , 但 堆 著 面 
积 图 可 以 理解 为 把 所 有 的 堆 若 都 连通 变 成 一 段 持 续 的 曲线 。 
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2000 ”2010 年 “内 森 杯 ”热狗 大 骨 王 比赛 成 绩 
200 (个 HDB) 





图 4-23 ”在 Illustrator 中 编辑 


4.2.3 加 点 


有 了 时候 ,如 来 用 圆 点 代 瞧 柱 形 ,表达 的 意思 可 能 会 更 加 明确 。 它 们 占据 的 空间 小 , 而且 不 是 算 
形 ， 所 以 能 更 好 地 体现 出 “ 流 ” 的 感觉 。 图 4-24 显 示 了 用 点 状 图 表 来 表现 时 间 数 据 时 的 几何 特征 。 








通过 从 0 开始 的 
数值 ， 标 识 出 
图 表 的 刻度 。 每 个 点 都 有 对 应 * 轴 和 y 轴 的 坐标 


时 间 轴 
根据 月 份 显 只 数 倩 ， 接 先后 顺序 排列 





图 4-24 ”后 状 图 表 的 基本 框架 
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这 种 类 型 的 图 表 通 常 被 称 为 散 点 图 ( scatterplot )， 你 也 可 以 用 它 来 表现 非 时 间 数 据 。 它 通常 
用 于 表现 两 个 变量 之 间 的 关系 ， 我 们 会 在 第 6 草 中 谈 到 相关 内 容 。 而 对 于 时 间 数 据 ， 我 们 通过 水 
平 轴 来 表示 时 间 ， 数 值 或 量度 则 在 垂下 轴 上 表现 。 

柱 形 图 用 高 度 作为 视觉 线索 , 而 散 点 图 则 用 位 置 。 你 可 以 根据 每 个 点 的 x 轴 和 y 轴 坐标 来 观察 ， 
并 且 根 据 其 他 点 的 位 置 来 进行 相互 比较 。 出 于 这 一 原因 ， 散 点 图 的 数值 轴 不 必 总 从 0 开始 〈 不 过 
从 0 开始 通常 是 不 错 的 )。 

创建 散 点 图 

利用 R 中 的 plotQ 〇 函数 可 以 很 容易 地 创建 散 点 图 ， 不 过 也 可 以 根据 不 同 的 数据 类 型 稍 加 变 
化 。 图 4-25 显 示 了 最 终 的 图 表 。 








订阅 人 数 增 长 
2010 年 1 月， 通过 RSS 和 邮件 订阅 FlowingData 贺 站 的 人 数 增长 
到 [27 611， 使 之 成 为 第 10 个 连 绕 增长 超过 10% 的 月 份 。 


3 ( 千 和 名 订阅 省 ) 


27 611 
(+10%) 


数据 报告 错误 
12 日 及 13 日 ， 来源 的 数据 报告 出 现 
霹 误 。 订 阅 人 数 相差 超过 17 000。 


3 
2010 年 1 月 


Source: Feedburner | Nathan Yau 








图 4-25 ”在 R 中 创建 、 在 Illustrator 中 设计 得 到 的 散 点 图 


这 次 的 故事 是 关于 FlowingData 网 站 于 2010 年 1 月 计算 的 订阅 者 数量 ， 数 据 报 告 来 源 于 
Feedburner， 该 服务 能 够 追踪 每 天 有 和 多少 人 阅 计 FlowineData 上 的 文 草 。 在 2010 年 1 月 1 日 , 订阅 人 
数 是 25 047， 而 到 月 底 的 人 数 是 27 611。 不 过 其 中 最 有 意思 的 地 方 可 能 是 该 月 中 旬 的 明显 下 滑 。 
我 是 否 说 了 什么 话 冒 犯 了 17 000 名 读者 ， 让 他 们 异 然 退 订 ?” 应 该 不 是 这 么 回 事 。 
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提示 数据 并 不 都 是 真实 的 。 可 能 是 笔 误 、 报 告 错误 或 其 他 原因 导致 数据 偏离 了 现实 。 











还 记得 在 R 中 创建 图 表 时 要 做 的 第 一 件 事 是 什么 吗 ? 载 人 数据 。 用 read.csv() 直接 从 URL 
中 获得 数据 。 
subscribers <- 


read.csv("http://datasets.flowingdata.com/flowingdata_subscribers.csv'", 
sep=",", header=TRUE) 


输入 以 下 代码 可 以 查看 数据 的 前 五 行 : 


subscribers[1:5,] 


看 上 去 应 该 是 这 样 : 

Date Subscribers Reach Item.Views Hits 
] 01-01-2010 25047 4627 9682 27225 
2 01-02-2010 25204 1676 5434 28042 
3 01-03-2010 25491 1485 6318 29824 
4 01-04-2010 26503 6290 17238 48911 
5 01-04-2010 26654 6544 16224 45521 


可 以 看 到 有 5 列 数 据 ， 分 别 对 应 日 期 、 订 阅 人 数 、 访 问 网 站 人 数 、 训 览 文章 数 和 网 站 点 击 数 。 
我 们 只 关心 其 中 的 订阅 人 数 。 

你 也 可 以 让 R 把 日 期 也 绘制 出 来 ,但 由 于 每 天 的 人 数 本 来 就 是 按时 间 顺 序 排列 的 ， 所 以 第 一 
列 的 内 容 其 实 并 无 太 大 必要 。 输 入 下 面 这 行 代码 就 能 看 到 点 状 图 ， 效 琳 如 图 4-26 所 示 。 


plot(subscribers$Subscribers) 
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图 4-26 FR 中 的 默认 图 表 


Bf 


很 人 镜 单 ， 对 了 吧 ? plotQ 〇 函数 可 以 让 你 创建 多 种 不 同类 型 的 图 表 ， 不 过 点 状 图 是 它 的 默认 类 
型 。 你 只 用 到 了 数据 中 的 订阅 人 数 。 当 你 只 给 plot 0) 函数 提供 一 个 数组 时 ， 它 会 假设 该 数组 中 





4.2 时 间 中 的 离散 点 95 


含有 数值 ， 并 且 上 日 动 为 x 轴 坐 标 建立 索引 。 
现在 明确 指定 你 希望 的 是 点 状 类 型 ， 并 且 设 置 垂 二 轴 的 范围 是 0 ~ 30 000。 
plot(subscribers$Subscribers, type="p", ylim=ct0, 30000)) 
图 4-27 和 图 4-26 是 一 回 事 , 但 生 下 轴 的 纬 更 党 ， 因 为 你 用 y1im 参 数 进行 了 指定 。 请 注意 你 
用 type 参 数 告诉 了 R 使 用 点 状 类 型 (p )。 如 果 你 把 类 型 改 为 hp，R 就 会 改 为 创建 高 密度 的 垂直 线 。 























名 
加 
i 
后 
呈 
局 
所 
ep 
ea 
ph 
加 
所 
人 
后 
号 
号 
三 
咏 





图 4-27 R 中 指定 了 y 轴 范围 的 点 状 图 


你 也 可 以 合并 这 两 种 类 型 ， 如 图 4-28 所 示 。 不 过 你 还 需要 用 到 points 0 函数。 这 是 因为 只 
要 一 用 到 plot 0 函数 ， 你 就 会 创建 一 个 新 的 图 表 ， 而 不 是 在 已 有 图 表 上 添加 新 元 素 。 如 采 你 打 
算 合 并 垂下 线 和 点 状 图 这 两 种 效果 ， 以 下 是 和 需要 的 代码 。 

plot(subscribers$Subscribers, type="h”, ylim=c(0, 30000), 


xlab="Day", ylab="Subscribers") 
points(subscribers$Subscribers, pch=19, col="black") 





订阅 人 数 


| 


图 4-28 ”市 有 高 密度 垂直 线 的 点 状 图 
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垂直 线 类 型 的 图 表 会 首先 绘制 出 来 ， 这 一 次 加 上 了 坐标 轴 标 签 。 之 后 点 状 图 会 添加 到 已 
有 的 图 表 中 。pch 参 数 表示 用 什么 字符 来 标注 点 ， 而 co1 参 数 我 们 曾 在 柱 形 图 中 用 到 过 ， 它 指 
定 填 充 颜色 。 

现在 让 我 们 回 到 图 4-27。 将 其 保存 为 PDF 文件 ， 然 后 在 Hiustrator 中 打开 ， 以 便 进 行 一 些 设计 
| (Ps 

用 选择 工具 选中 标签 ， 改 成 你 喜欢 的 字体 。 然 后 打 散 标签 群 组 ,以便 能 单个 编辑 牌 直 轴 的 标 
签 。 通过 “Transform 一 Transform Each” 将 标签 正 过 来 , 然后 用 直接 选择 工具 删除 > 轴 上 的 垂直 线 。 
你 不 一 定 非 要 这 么 做 ， 只 不 过 它 有 点 占 地 方 。 

最 后 选中 那些 圆 点 ， 它 们 目前 是 白色 的 圆圈 。 调 整 “颜色 ”面板 中 的 选项 ， 设 置 你 想 要 的 
填充 色 和 边框 色 。 可 能 你 还 需要 打开 “颜色 ”面板 的 选项 沫 单 〈 见 图 4-29 )， 把 颜色 模式 从 灰 
度 (Grayscale ) 改 成 CMYK ( 也 就 是 青 、 品 红 、 黄 和 墨 四 色 搭 配 模 式 )， 这 样 才能 有 更 多 的 用 
色 选 择 。 




















Hide Options 


Grayscale 
RGB 
HSB 
vw CMYK 
Web Safe RGE 


Invert 
Complement 


Create New Swatch... 





图 4-29 “颜色 ”面板 中 的 选项 菜单 
这 样 你 就 会 得 到 图 4-30。 它 已 经 很 像 最 终 的 图 表 了 。 








subscribers$Subscribers 





图 4-30 ”调整 坐标 轴 和 颜色 之 后 的 点 状 图 
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现在 试 着 添加 网 格 , 这 样 一 来 读者 就 能 更 容易 观察 右边 较 远 圆 点 所 代表 的 值 ,以 及 和 之 前 各 
圆 点 之 间 的 关系 。 用 选择 工具 选中 数值 轴 上 的 刻度 线 , 然后 拖 动 鼠 标 将 它们 拉 长 到 贯穿 整个 网 表 。 
现在 看 来 它们 有 点 生硬 ， 所 以 需要 改变 线条 的 样式 。 和 之 前 一 样 ， 你 可 以 在 “ 摘 边 ”面板 中 做 到 
这 一 点 。 如 果 你 想 用 较 细 的 虚线 ， 可 以 按 图 4-31 那 样 设 置 。 
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Align: Ed 
图 4-31 “ 描 边 ” 面 板 中 虚线 样式 的 各 种 选项 


图 4-32 是 修改 后 的 效 末 ， 同 时 添加 了 数值 的 单位 。 





30 ( 千 名 订阅 者 ) 





图 4.32 ”添加 网 格 并 且 在 数值 轴 上 标明 数值 和 单位 





在 图 4-32 的 基础 上 , 使 用 同样 的 工具 和 技巧 以 实现 最 终 的 图 表 。 用 钢笔 工具 在 水 平 轴 上 绘制 
刻度 线 ， 用 文字 工具 编辑 和 添加 标签 。 不 要 去 了 在 图 表 撒 部 加 上 数据 来 源 ， 让 改 事 更 加 完整 。 


4.3 延续 性 数据 
延续 性 时 间 序 列 数据 的 可 视 化 和 离散 型 数据 的 可 视 化 很 相似 。 因 为 就 算是 延续 性 数据 , 你 手 
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中 向 握 的 数据 集 依然 还 是 离散 且 有 限 的 。 延续 型 和 离散 型 在 结构 上 并 无 二 化, 区 别 在 于 它们 所 呈 
现 的 真实 世界 。 正如 之 前 所 提 到 的 , 延续 性 数据 表现 的 是 不 断 变 化 的 现象 , 而 为 了 实现 这 一 目的 ， 
我 们 应 当选 择 合适 的 可 视 化 形式 。 


4.3.1 操 与 扩 相 连 


你 可 能 对 这 种 图 表 也 比较 熟悉 。 时 间 序 列 图 表 的 绘制 和 点 状 图 很 相似 ,只 不 过 你 还 要 用 线条 
将 圆 点 连接 起 来 。 这 些 圆 点 一 般 也 不 用 显示 。 图 4-33 显 示 了 这 一 颇 受 欢迎 的 图 表 类 型 的 几何 特征 。 

















数值 轴 \ 1 

人 2 分 别 鸡 应 x 

0 和 y 轴 的 坐标 : 

图 表 的 刻度 。 : 

\ 边线 

” 连接 各 节点 的 线条 ， 
有 助 于 显示 各 节点 
间 的 变化 趋势 


时 间 轴 
表现 连续 的 月 份 





图 4-33 ”时 间 序 列 图 表 的 基本 框架 


图 中 有 节点 〈 或 者 说 圆 点 ， 刘 有 各 目的 x 轴 及 y 轴 坐标 ) 和 边线 (或 者 说 连接 线 ， 以 便 观 察 数 
据 间 的 变化 趋势 )。 数 值 轴 从 0 开始 比较 好 ， 因 为 从 其 他 数值 开始 可 能 会 影响 到 网 表 的 比例 范 畏 。 

水 平 轴 的 长 度 也 会 影响 到 观察 到 的 趋势 。 如 果 水 平 轴 过 短 , 点 与 点 间 的 增长 就 会 看 起 来 比较 
夸张 。 如 果 水 平 轴 过 长 ， 你 可 能 就 无 法 发 现 其 中 的 变化 模式 。 

创建 时 间 序 列 图 表 

如 果 你 学 会 了 如 何 用 R 创 建 散 点 图 ， 那么 就 能 掌握 创建 时 间 序 列 网 表 的 方法 。 载 人 数据 ， 然 
后 使 用 pl1ot0) 图 数 ， 但 在 type 参 数 中 不 用 p， 而 是 用 1(〈 代 表 线 条 ，line )。 

我 们 这 次 用 世界 银行 发 布 的 1960 一 2009 年 间 的 世界 人 口 数据 来 作 演 示 。 和 往常 一 样 ， 用 
read.csv(0) 困 数 来 载 人 数据 。 


population <- 
read.csv("http://datasets.flowingdata.com/world-population.csv", 
sep=",", header=TRUE) 


以 下 是 最 上 面 几 行 数据 的 杆子。 只 有 年 份 和 和 人口 数量 两 种 数据 。 
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Year Population 
] 1960 3028654024 
2 1961 3068356747 
3 1962 3121963107 
4 1963 3187471383 
5 1964 3253112403 


用 plot0) 函数 并 指定 xz 插 和 y 轴 坐标 、 图 表 类 型 、 数 值 轴 范围 和 坐标 轴 标 签 。 


plot(population$Year, population$Population, type="1", 
ylim=c(0, 7000000000), xlab="Year", ylab="Population") 


你 的 图 表 应 该 如 图 4-34 所 示 。 
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1960 1970 1980 1990 2000 2010 
年 份 
图 4-34 R 中 的 默认 时 间 序 列 图 表 * 


现在 你 可 以 将 图 形 保存 为 PDF 格 式 ， 然 后 在 Illustrator 中 编辑 它 。 这 个 操作 我 们 已 经 做 过 好 几 
次 了 , 现在 尝试 一 点 新 花样 : 用 Illustrator 的 折线 图 ( Line Graph ) 工具 来 设计 整 张 图 表 。Illustrator 
中 提供 了 数 个 图 表 工 具 ， 可 以 让 设计 师 直 接 创建 一 些 基本 图 表 ， 折线 图 工具 就 是 其 中 之 一 ( 参见 
图 4-35 )。 








ml Ee le DIB 





图 4-35 _ Justrator 中 的 图 表 工 具 





首先 在 “工具 ”面板 中 选择 折线 图 工具 。 你 会 看 到 一 些 图 表 类 型 的 图 标 。 单 击 各 图 标 选 择 图 
表 类 型 。 

然后 从 http:/datasets.flowingdata.com/world-population.csv 下 载 人 口 数据 。 你 不 能 像 在 R 中 那样 
直接 通过 URL 载 和 数据, 因而 必须 把 文件 存在 自己 的 电脑 里 。 用 Excel 或 者 Google Documents 打 开 
这 个 CSV 文 件 ， 如 图 4-36 所 示 。 复 制 所 有 的 行 (第 一 行 除外 ， 因 为 其 内 容 是 各 列 的 名 称 )。 现 在 





QD 图 中 纵 轴 数值 是 用 科学 计数 法 表示 的 ， 举 例 来 说 ，2e + 09 = 2 x 10 ， 其 他 值 可 类 推 。 一 一 编者 注 
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要 把 数据 粘贴 到 Ilustrator 里 面 去 。 





Population 


1960 3028654024 
1961 3068356747 
1962 3121963107 
1963 3187471383 
1964 3253112403 
1965 3320396924 
1966 3390712300 
1967 3460521851 
1968 3531547287 
1969 3606994959 
1970 3682870688 
1971 3761750672 
1972 3839147707 
1973 3915742695 
1974 3992806090 
1975 4068032705 
1976 4141383058 
1977 4214499013 
97R RR4R5OR1 














图 4-36 ”在 Excel 中 打开 的 CSV 文 件 


回 到 Ilustrator。 使 用 从 “工具 ”面板 中 选择 的 折线 图 工具 , 通过 单 击 并 拖 动 鼠标 画 一 个 矩形 ， 
其 大 小 约 等 于 你 想 要 的 图 表 尺 寸 。 此 时 会 弹出 一 个 电子 表格 ， 如 图 4-37 所 示 。 








目 
| [TI 1 ~ 
is6too 308] | | “| “| 
20 || | | | “| 
lss ln | | | | 

= 


全 

1966.00 |339071-| | 

[is6760 |346052-| | 

1968.00 |353154| | 

972.00 [sa | 
a nn AnTQn 


图 4-37 ”Tllustrator 中 输入 数据 的 电子 表格 


把 你 刚才 从 Excel 里 复制 的 数据 粘贴 进来 ， 然 后 单 击 右上 角 的 勾 号 。 你 现在 应 该 能 看 到 类 似 
图 4-38 的 图 形 。 





8000000000 


7000000000 


6000000000 


5000000000 


4000000000 


3000000000 





图 4-38 ”Tllustrator 中 默认 的 折线 图 


已 经 基本 成 型 了 , 不 过 我 们 还 需要 调整 一 些 选 项 ， 以 让 图 表 看 上 去 不 那么 粗糙 。 鼠 标 右 击 图 
表 并 选择 “类 型 ”( Type )。 如 图 4-39 中 那样 ， 取 消 勾 选 Mark Data Points (标记 数据 点 ) 前 面 的 复 
人 慌 6 
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-| Graph Options | 人 1 Co 


Type 
lj [| 尾 | 芭 | 辆 | 他 | EE| [®| |@| ( Cancel ) 
Value Axis: | On Left Side + 入 

















Style 





LAdd Drop Shadow [First Row in Front 
DAdd Legend Across Top 已 First Column In Front 
一 QOplions 
[) Mark Data Points 区 Connect Data Points 
DEdge-to-Edge Lines [| Draw Filled Lines 
Line Width: 3 pt 























图 4-39 ”Tllustrator 中 的 图 表 选 项 


在 下 拉 采 单 中 选择 “类 别 轴 ”( Category Axis ) 选项 , 然后 将 刻度 线 长 度 设置 为 “无 ”( None )， 
单 击 确定 按钮 。 这 会 让 你 的 网 表 看 起 来 更 加 干净 而 不 那么 杂乱 。 此 后 的 设计 步骤 和 之 前 由 R 生 成 
的 图 表 是 一 样 的 。 











提示 如 果 你 打算 绘制 一 些 基 础 的 图 表 类 型 ， 而 且 要 用 Justrator 来 编辑 ， 那 么 可 以 直接 在 
lllustrator 里 面 创建 它 , 这 样 可 以 节省 时 间 。 并 不 是 所 有 图 表 都 得 先 在 RR 里 面 创建 。 当然 了 ， 
也 不 是 所 有 东西 都 得 在 Illustrator 里 面 创建 。 








你 可 以 清理 一 下 垂直 轴 、 简 化 数值 标签 、 在 水 平 轴 上 沃 加 刻度 线 和 年 份 标 签 , 并 且 浴 加 标题 和 
说 明文 字 。 你 还 可 以 调整 遇 线 的 样式 ， 让 它 更 加 突出 。 移 认 的 浅 灰 色 曲 线 给 人 感 党 像 是 背景 元 素 ， 
而 我 们 应 该 让 它 窒 出 显示 在 画面 中 央 。 完 成 这 些 调整 之 后 ， 你 的 图 表 效 采 应 该 类 似 图 4-40 那 样 。 














世界 人 口 
70 (人 人口) 


60 
0 
40 


30 


在 过 去 50 年 中 ， 世 界 人 口 从 略 
多 于 30 亿 增长 到 了 接近 70 亿 。 


1970 1980 1990 2000 2010 





图 4-40 ”过 去 50 年 中 的 世界 人 口 





102 第 4 章 ”有关 时 间 趋 势 的 可 视 化 











这 一 节 想 表达 的 意思 是 , 你 可 以 用 lllustrator 和 RR 创建 出 同样 的 图 表 一 一 二 者 生成 的 结果 是 相 
同 的 。 你 习惯 使 用 哪 种 工具 就 用 哪 种 工具 好 了 ， 最 重要 的 是 得 到 结果 。 











4.3.2 一 步 一 个 台阶 


标准 折线 图 表 的 缺陷 之 一 是 它 必 须要 表现 从 4 点 到 有 点 间 的 稳定 变化 。 它 对 于 表现 世界 人 口 
这 样 的 数据 是 没 问 题 的 , 但 有 些 事物 会 长 时 期 俘 留 在 某 个 值 上 ， 然 后 突然 出 现 增长 或 者 衰退 。 比 
如 说 ， 银 行 利率 就 会 保持 几 个 月 不 变 ， 然 后 某 天 突然 下 调 。 对 于 这 种 类 型 的 数据 可 以 用 阶梯 图 ， 
如 图 4-41 所 示 。 





数值 轴 : 站 点 z 
通过 从 0 开始 的 : 和 往常 一 样 ， 水 平 边线 | 

数值 ， 标 识 出 : 分 别 对 应 x 轴 水 平 边 线 表 示 在 这 一 
图 表 的 刻度 。 和 和 y 轴 的 坐标 时 间 段 没有 发 生变 化 


跳跃 
没有 趋势 ， 只 是 瞬间 
跳跃 到 下 一 个 数值 


时 间 轴 
表 规 应 续 的 月 份 





图 4-41 阶梯 疼 的 基本 框架 


与 直接 连接 4 点 和 B 点 不 同 ， 曲 线 会 保持 在 同一 数值 ， 直 到 发 生变 化 ， 那 时 再 直接 加 上 【或 
向 下 ) 跳跃 到 下 一 个 数值 。 一 般 会 有 多 个 这 种 阶梯 。 

创建 阶梯 图 

Illustrator 里 面 没 有 能 直接 创建 阶梯 图 的 工具 ， 但 是 R 里 面 有 ， 所 以 你 可 以 先 在 R 里 面 创 建 基 
础 图 表 ， 然 后 在 fustrator 里 面 进行 编辑 。 你 是 否 已 经 发 觉 了 这 其 中 的 模式 ? 

图 4-42 显 示 了 最 终 的 图 表 。 它 表现 的 是 美国 邮政 投递 信件 的 资费 变化 。 请 注意 ， 这 些 变 化 
并 不 是 定期 发 生 的 。 从 1995 一 1999 年 ， 邮 费 一 直 保 持 在 32 美 分 ， 4 年间 并 无 涨 落 。 然 而 在 最 近 的 
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2006 一 2009 年 间 ， 每 年 都 出 现 了 上 涨 。 


美国 邮费 


在 1991 年 ， 通 过 美国 邮政 服务 投递 一 封 重量 不 超过 
1 益 司 ”的 信件 需要 29 美 分 。2001 年 邮费 已 上 涨 到 了 
37 美 分 ， 而 且 在 此 后 又 上 涨 了 4 次 。 


2001 “01 





Source: United States Statistical Abstract | Nathan Yau 





图 4-42 ”显示 邮费 变化 的 阶梯 网 


要 在 R 中 创建 阶梯 图 ， 同 样 需 要 经 过 本 章 中 你 一 直 遵 循 的 几 个 步骤 : 

(1) 载 人 数据; 

(2) 确保 数据 有 适当 的 格式 ; 

(3) 通过 某 个 R 函 数 来 创建 图 形 。 

你 可 以 在 美国 统计 摘要 的 网 站 上 找到 邮政 资费 的 历史 数据 ,我 已 经 把 它们 整理 为 一 个 CSV 文 
件 , 地址 是 http:/datasets.flowingdata.com/us-postage.csv。 直接 将 URL 搬 人 到 read.csvG 中, 让 它 
作为 R 的 数据 源 。 

postage <- read.csvC'http://datasets.f lowingdata.com/us-postage.csv", 

sep=",", header=TRUE) 


以 下 列 出 了 完整 的 数据 集 ， 其 中 只 有 10 个 数据 节点 ， 分 别 代 表 1991 一 2009 年 间 的 每 一 次 邮 
费 变动 ， 最 后 一 个 数据 节点 表示 当前 资费 。 第 一 列 是 变化 发 生 的 年 份 ， 第 二 列 是 资费 ， 单 位 为 














@ 1 占 司 = 28.350 克 。 一 一 编者 注 
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二 


六 
3 


Year Price 
1991 0.29 
1995 0.32 
1999 0.33 
2001 0.34 
2002 0.37 
2006 0.39 
2007 0.41 
2008 0.42 
2009 0.44 
10 2010 0.44 


用 plotQ 〇 也 数 来 创建 阶梯 图 很 容易 。 将 年 份 作为 x 轴 坐 标 、 价 格 作为 y 轴 坐标 , 然后 将 类 型 设 
置 为 s， 目 然 它 代表 的 是 阶梯 ( step )。 

plot(postage$sYear, postage$Price, type="s'") 

如 采 你 愿意 ， 还 可 以 指定 标题 和 坐标 轴 标 签 。 

plot(postage $Year, postage$Price, type="s", 


main="US Postage Rates for Letters, First Ounce, 199]-2010", 
xlab="Year", ylab="Postage Rate (Dollars)") 


这 样 就 得 到 了 邮费 的 阶梯 图 ， 如 图 4-43 所 示 。 


4 > 全 mm 上 Lu TI 性 


1991 一 2009 年 美国 信件 首发 司 的 邮费 





图 4-43 ”利用 R 创 建 的 阶梯 图 
有 兴趣 的 话 ， 你 还 可 以 试 试看 折线 图 的 效果 ( 参见 图 4-44 )。 
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元 
DC_ 
De 
由 
可) 
号 
办 
QO 
[= 


2000 


postage$Year 





图 4-44 邮费 的 折线 网 


图 中 体现 出 了 增长 的 趋势 , 但 你 是 否 注意 到 它 看 上 去 好 像 是 在 稳定 增长 ?” 虽然 在 2001 一 2006 
年 间 并 没有 38 美 分 的 资费 ,但 从 折线 图 中 你 无 法 得 知 这 一 点 ， 除 非 看 到 原始 数据 。 

将 阶梯 图 存储 为 PDF 格式 ， 然 后 在 Ilustrator 中 打开 。 重 复 之 前 的 过 程 ， 按 你 的 喜好 来 编辑 图 
表 。 我 去 掉 了 整个 垂直 轴 ， 直 接 在 每 一 个 跳跃 处 语 加 标记 《使 用 输入 文字 工具 )。 同 时 我 在 水 平 
轴 上 绘制 了 平均 分 隔 的 刻度 线 ， 但 只 在 发 生变 化 的 年 份 庄 加 标记 。 


























提示 “如果 数据 集 比 较 小 ， 可 以 直接 在 数据 节点 上 进行 标记 ， 而 无 需 使 用 数值 轴 和 网 格 。 这 样 
会 更 加 强调 数据 本 身 。 而 且 由 于 数据 节点 并 不 多 ， 因 而 标记 并 不 会 显得 过 于 杂乱 。 








最 后 , 我 使 用 了 灰色 背景 。 这 固然 是 出 于 个 人 喜好 , 但 这 种 背景 色 有 助 于 强调 图 表 , 尤其 是 
当 图 表 隐 没 在 文本 中 时 。 它 提供 了 一 个 包容 的 空间 ， 同 时 又 不 会 显得 刺眼 。 要 想 在 所 有 图 形 和 文 
字 之 后 创建 背景 ， 你 需要 在 Ilustrator 中 创建 一 个 新 的 图 层 。 可 以 在 “图 层 ” (Layers ) 面板 中 进行 
设置 。 单 击 面板 右 下 角 倒 数 第 二 个 按钮 来 创建 新 图 层 。 新 建 的 图 层 默 认 会 被 放置 在 最 上 方 , 但 我 
们 希望 它 退 后 到 最 底层 , 所 以 需要 把 新 图 层 拖 到 Layer 1 图 层 的 下 方 。 然 后 你 还 可 以 对 层 进行 重 命 
名 。 这 个 操作 在 你 开始 设计 更 复杂 的 图 形 时 会 为 你 辜 来 极 大 的 帮助 。 我 将 新 图 层 重 命名 为 


“background”， 如 图 4-45 所 示 。 
情 [ 由 际 , Layer 1 
区 | || 国 | background 




















图 4-45 Ilustrator 中 的 “图 层 ” 面 板 
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在 此 之 后 ， 用 矩形 工具 ( Rectangle tool ) 绘制 一 个 矩形 ， 并 且 按 你 的 想法 来 改变 它 的 大 小 ， 
然后 在 “颜色 ”面板 中 改变 它 的 颜色 。 








4.3.3 ”平滑 和 估算 


如 果 你 手中 的 数据 太 多 ,或 者 数据 杂乱 无 章 ,， 可 能 就 会 很 难 辨认 其 中 的 趋势 和 横 式 。 为 了 改 
善 这 一 点 ， 你 可 以 估算 出 一 条 趋势 线 。 网 4-46 显 示 了 基本 的 想法 。 





通过 从 0 开始 的 
数值 ， 标 识 出 : 
图 表 的 刻度 。 


拟 合 线 
在 多 个 数据 节 


点 中 估算 趋势 


根据 月 份 显 术 数值 ， 
接 先 后 顺 序 排列 


图 4-46 ”为 数据 节点 拟 合 一 条 线 


绘制 一 条 线 穿 过 尽 可 能 多 的 数据 节点 ,同时 尽量 减少 各 数据 节点 与 拟 合 线 之 间 的 总 距离 。 最 

直 规 了 当 的 做 法 就 是 创建 一 条 直线 ， 这 其 中 用 到 了 你 在 中 学 时 学 过 的 基础 糙 堆 式 方 程 : 
y=mx+b 

其 中 和 代表 斜率，2 代 表 稚 距 。 但 如 有 末 你 的 趋势 不 是 线性 的 该 怎么 办 ? 用 直线 是 不 可 能 拟 合 市 有 

波峰 波 谷 的 数据 的 。 在 这 里 我 们 可 以 用 到 William Cleveland 和 Susan Devlin 创 建 的 一 种 统计 学 方 

法 ， 它 被 称 作 LOESS， 即 局 部 加 权 散 点 平滑 法 ( Locally Weighted Scatterplot Smoothing )。 通 过 它 

你 能 用 曲线 来 拟 合 数据 。 

LOESS 从 最 开头 的 数据 开始 对 数据 进行 “切片 ”。 针 对 每 一 个 切片 中 的 数据 ， 它 都 会 佑 算出 
一 个 低 阶 多 项 式 。LOESS 会 分 析 每 一 段 数 据 ,， 拟 合 一 大 堆 微 小 的 曲线 ,然后 将 它们 合并 形成 一 条 
曲线 。 你 可 以 Google 一 下 以 了 解 更 多 细 方 ， 有关 这 一 主题 有 不 少 论文 。 现 在 让 我 们 来 看 看 怎样 用 
LOESS 处 理 数 据 。 
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了 为 了 解 LOESS 的 完整 细节 ， 参 阅 William Cleveland 在 《美国 统计 协会 杂志 》 上 发 表 的 文章 


“Robust Locally Weighted Regression and Smoothing Scatterplots”( 强劲 的 局 部 加 权 回 归 及 平 
滑 散 点 图 ) 。 





拟 合 一 条 LOESS 曲 线 

你 现在 看 到 的 故事 是 美国 过 去 几 十 年 间 的 失业 问题 。 失 业 率 一 直 有 升 有 降 ， 而 且 呈 现 出 季节 
性 波动 。 但 其 中 的 整体 趋势 是 怎样 的 ?” 如 图 4-47 所 示 ， 美 国 失业 率 在 20 世 纪 80 年 代 达 到 了 顶峰 ， 
90 年 代 一 直 在 下 降 ， 然 后 在 2008 年 前 后 开始 反弹 。 











1948 一 2010 年 间 的 美国 失业 率 


10% 


1993 2008 





Source: Bureau of Labor Statistics | Nathan Yau 





图 4-47 用 LOESS 曲 线 拟 合 的 美国 失业 率 
图 4-48 显 示 了 用 R 的 plot 〇 滑 数 生成 的 失业 率 点 状 图 表 。 


# 载 入 数据 
unemployment <- 
read.csvt 
"http:/A/datasets.f lowingdata.com/unemployment-rate-1948-2010.csyv'", 
sep=",") 
unemployment[1:10,] 


# 生成 散 点 图 


plot(l:length(unemployment$Value), unemployment$Yalue) 
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1:length(unemployment$Value) 





图 4-48 ”只 有 市 点 的 失业 率 图 表 
图 4-49 显 示 了 直线 拟 合 的 效果 。 


Do om GG 


unemployment$Value 


1:length(unemployment$Value) 





图 4-49 ”笔直 的 拟 合 线 


这 并 没有 什么 用 。 它 看 起 来 好 像 忽 略 了 失业 率 的 所 有 起 伏 波动 。 要 想 用 LOESS 曲 线 来 拟 合 ， 
我 们 得 用 到 scatter.smooth() 函数 。 
statter.smooth(x=1:1length(unemployment$Value), y=unemployment$Value) 


运行 结果 如 图 4-50 所 示 。 线 条 开始 同上 凸 起 ， 对 应 了 20 志 纪 80 年 代 的 失业 高 峰 。 现 在 有 点 感 
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1:length(unemployment$Value) 





图 4-50 LOESS 曲 线 的 拟 合 


你 可 以 通过 scatter .smooth() 也 数 中 的 degree 和 span 参 数 来 调整 曲线 的 拟 合 度 ,前 者 控制 
拟 合 多 项 式 的 阶 数 ， 后 者 控制 曲线 的 平 请 度 。span 越 接近 于 0， 拟 合 的 程度 就 越 高 。 图 4-51 显 示 
的 是 degree 为 2、span 为 0.$ 时 的 效果 。 现 在 我 们 再 调整 一 下 颜色 和 坐标 轴 的 范围 。 


scatter.smooth(x=1:length(unemployment$Value), 
y=UnNnemployment$Value, ylim=c(0,11), degree=2, €¢ol]l="#CCCCCC”, span=0.5) 


unemployment$Value 


200 400 


1:length(unemployment$Value) 





图 4-51 平滑 度 较 小 、 多 项 式 阶 数 较 高 的 拟 合 LOESS 曲 线 
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线 平滑 度 的 。 
导 到 图 4-47 中 的 最 终 效果 , 将 图 形 存储 为 PDF 并 在 Illustrator 中 打开 。 使 用 同样 的 工具 ( 比 
如 选择 工具 、 文 字 工 具 、 钢 笔 工 具 ) 添加 标题 、 育 景色 和 水 平 轴 的 刻度 线 。 拟 合 线 比 数据 点 要 
突出 得 多 ， 这 样 可 以 把 读者 的 注意 力 引 导 到 趋势 上 面 。 


通过 这 些 设置 ， 曲 线 的 上 下 起 伏 更 加 突出 了 。 你 可 以 多 试 试 不 同 的 span 值 ， 了 解 一 下 它 是 
如 何 改变 
为 了 








提示 使 用 不 同 的 颜色 、 笔 触 粗细 来 强调 图 表 中 的 重要 部 分 。 


4.4 ”小 结 


探索 有 关 时 间 的 模式 是 非 浓 有 趣 的 。 时 间 和 我 们 的 日 常生 活 是 如 此 不 可 分 割 , 以 至 于 时 间 数 
据 的 可 视 化 中 有 很 多 方面 都 是 相当 下 观 的 ,我们 能 够 理解 事物 正在 变迁 和 发 展 一 一 难 的 是 弄 清楚 
到 底 变 化 了 多 少 ， 以 及 懂得 要 从 图 表 中 挖掘 什么 内 容 。 

看 一 眼 图 表 中 的 线条 ， 我 们 可 以 很 快 了 解 到 事物 是 在 上 升 还 是 在 下 降 。 这 就 是 可 视 化 的 目 
的 一 一 快速 了 解数 据 的 概貌 。 但 我 们 还 能 更 进一步 。 你 可 以 利用 可 视 化 作为 探索 的 工具 。 仔细 观 
察 某 个 时 间 段 ,尝试 解释 为 什么 在 这 一 天 会 有 小 波动 ,或 者 为 什么 在 那 一 天 叉 会 突然 上 升 。 这 才 
是 数据 有 意思 的 地 方 一 一 你 对 数据 越 了 解 ， 讲 出 来 的 故事 也 会 越 精彩 。 

在 理解 了 数据 的 内 容 后 , 你 需要 在 数据 图 表 中 对 其 中 的 细 市 作出 解释 。 强调 那些 令 人 感 兴 
的 部 分 ， 引 导读 者 去 关注 它们 。 过 于 简单 朴 系 的 图 表 对 你 上 自己 而 言 没 有 什么 问题 , 但 由 于 没有 上 
下 文 背景 ,在 其 他 人 看 来 就 会 是 索然 无 味 的 。 

为 了 实现 这 一 日 的 ， 我 们 使 用 了 R 和 Tllustrator。R 用 于 基础 的 搭建 ， 而 Illustrator 用 于 图 表 的 
设计 ， 指出 数据 中 的 重要 部 分 。 当 然 ， 本 草 中 所 涉及 的 图 表 类 型 只 是 其 中 的 一 部 分 ， 它们 只 和 时 
间 数 据 相 关 。 而 如 果 往 图 表 中 引入 动画 和 交互 , 你 又 将 掌握 很 多 新 鲜花 样 ， 大 家 将 会 在 下 一 革 中 
看 到 。 同 时 你 会 了 解 一 种 新 的 图 表 类 型 一 一 比例 图 。 本草 中 所 用 到 的 编程 步骤 和 设计 原则 同样 适 
用 于 下 一 章 ， 即 使 你 用 为 一 门 语言 来 写 代码 。 
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时 间 序 列 数据 自然 是 以 时 间 为 分 组 依据 的 。 它 显示 了 在 某 个 特定 时 间 
范围 内 发 生 的 一 系列 事件 。 在 比例 数据 中 同样 也 存在 分 组 依据 ， 只 不 过 它 
是 按 类 别 、 子 类 别 和 群体 进行 划分 的 。 这 里 的 群体 并 不 仅 指 人 类 群体 ， 叱 
代表 的 是 各 种 可 能 的 选择 或 产 出 ， 也 就 是 样本 空间 ( sample space )。 

问卷 调查 可 能 会 询问 人 们 对 某 个 问题 是 鞠 同 、 反 对 还 是 保持 中 立 。 每 
一 个 观点 类 别 都 有 各 自 的 意义 ， 而 且 各 部 分 加 起 来 构成 了 整体 。 

本 章 讨 论 如 何 表现 单个 的 类 别 , 并 提供 了 更 广阔 的 视野 一 一 各 个 选择 
之 间 如 何 相 互 关 联 。 你 会 用 到 之 前 章节 中 学 到 的 工具 ， 还 会 首次 党 试用 


HTML CSS 和 JavaScript 创 建 可 交互 的 图 表 , 并 接触 到 用 Flash 创 建 的 图 表 。 
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5.1 在 比例 中 寻求 什么 


对 于 比例 ,我 们 通常 会 寻求 三 件 事情 : 最 大 值 、 最 小 值 和 总 体 分 布 。 前 两 者 很 明确 ， 将 数据 
由 小 到 大 排列 ,位 于 两 端的 就 是 最 大 值 和 最 小 值 。 如 果 你 处 理 的 是 投票 结果 ,那么 它们 就 代表 参 
与 者 选择 最 多 和 最 少 的 选项 。 如 采 你 绘制 的 是 食物 各 部 分 的 卡路里 含量 , 那么 就 会 看 到 是 哪个 部 
分 的 卡路里 最 多 ， 哪 个 部 分 的 卡路里 最 少 。 

不 过 ,表现 最 大 值 和 最 小 值 并 不 需要 图 表 来 呈现 。 我们 真正 最 感 兴 趣 的 是 比例 的 分 配 。 投 票 
中 某 个 选项 的 结果 和 其 他 相 比 有 什么 不 同 ? 脂肪 、 和 集 日 质 、 砚 水 化 谷物 痢 含有 同样 的 卡路里 吗 ? 
还 是 有 茶 一 种 的 卡路里 含量 占 绝 大 多 数 ? 本 曹 涉及 的 图 表 类 型 将 会 帮助 你 解答 这 些 问题 。 


5.2 整体 中 的 各 个 部 分 


这 是 形式 最 简单 的 比例 呈现 。 你 有 一 系列 比例 值 ， 它 们 的 总 和 为 1， 或 者 百分比 的 总 和 是 
100%。 你 既 希 望 呈现 各 部 分 和 其 他 部 分 的 相对 关系 ,同时 又 希望 保持 整体 上 的 感觉 。 






































5.2.1 饼 图 


饼 图 是 最 传统 的 图 表 之 一 。 它 们 随处 可 见 ， 比 如 商务 演讲 演示 ， 甚 至 还 有 网 站 用 它 来 开 各 
种 玩笑 。 已 知 最 早 的 饼 图 是 1801 年 由 William Playfair 发 布 的 ， 他 还 发 明了 折线 图 和 柱 形 图 。 真 
是 用 6 

你 应 该 很 清楚 饼 图 的 原理 。 如 图 5-1 所 示 ， 我 们 从 一 个 圆 开 始 ， 用 它 来 代表 整体 ， 然 后 把 它 
们 切 成 棉 形 ， 就 和 分 和 蛋糕 或 披 亦 一 样 。 每 一 个 棉 形 都 代表 整体 中 的 一 部 分 。 记 住 下 面 这 句 话 ， 
为 很 多 新 手 都 会 犯 这 个 错误 : 所 有 要 形 所 占 百 分 比 的 总 和 应 该 等 于 100%。 如 果 不 等 ， 那 就 一 定 
是 哪里 出 了 问题 。 








整体 中 的 各 个 部 分 
所 有 模 形 的 总 和 应 该 代 
表 整 体 ， 也 就 是 100% 


横 形 角度 
、 ”数值 与 模 形 角度 成 
“正比 ， 总 和 为 360° 


> 


横 形 
饼 图 中 的 每 一 个 部 分 都 
代表 着 某 个 类 别 或 数值 





图 5-1 人 饼 图 的 基本 框 淋 
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有 些 人 对 于 饼 图 略 持 微 词 , 因为 它 不 像 柱 形 图 或 者 基于 位 置 的 图 形 那 样 精 确 ， 所 以 他 们 认为 
应 该 完全 弃 之 不 用 。 的 确 , 衡量 长 度 要 比 衡量 面积 或 角度 要 容易 得 多 , 但 这 并 不 意味 着 我 们 就 应 
该 完全 抛弃 饼 图 。 

只 要 了 解 了 饼 图 的 局 限 , 使 用 起 来 并 不 存在 问题 。 这 一 点 很 容易 做 到 : 良好 组 织 数据 ， 不 要 
将 一 个 饼 图 分 成 太 多 块 。 

创建 饼 图 

几乎 所 有 的 图 表 工 具 都 能 绘制 饼 图 ,不 过 我 们 可 以 像 上 一 章 那 样 直 接 在 Illustrator 中 创建 。 过 
程 是 一 样 的 : 首先 添加 数据 ， 然 后 绘制 基础 图 表 ， 最 后 再 加 以 修饰 。 

绘制 基础 图 表 (也 就 是 饼 图 ) 的 方法 非常 简单 。 创 建 一 个 新 文件 ， 从 “工具 ”面板 中 选择 Pie 
Graph Tool ( 饼 图 工具 )， 如 图 $-2 所 示 。 按 下 左 键 并 拖 动 鼠标 创建 一 个 和 矩形， 其 大 小 应 该 和 你 想 
要 的 图 表 尺 寸 相符 。 你 还 可 以 在 后 面 调 整 尺寸 。 




















司 地 la Column Graph Tool J 
| | la Stacked Column Graph Tool 
py 民 Bar Graph Tool 
如 Stacked Bar Craph Tool 
|! < Line Graph Tool 
> Area Graph Tool 
上 上 Scatter Craph Tool 





司 
的 Radar Graph Tool 





图 5-2 ”Tllustrator 中 的 “工具 ”面板 


在 松 开 鼠 标 左 键 之 后 ， 会 弹出 一 个 电子 表格 窗口 ， 要 求 你 输入 数据 。 如 果 是 单个 饼 图 ， 从 左 
到 右 输 入 各 个 数据 点 ， 然 后 数据 束 会 以 同样 的 顺序 显示 在 图 表 中 。 

我 们 这 次 以 FlowingData 网 站 发 起 的 一 项 投票 为 例 。 网 站 列 出 了 一 系列 与 数据 相关 的 领域 ， 
并 要 求 访问 者 从 中 选择 他 们 最 感 兴趣 的 选项 。 最 后 收 到 了 831 肾 。 


感 兴趣 的 领域 票 数 
统计 学 172 
设计 136 
商务 135 
制图 学 101 
信息 科学 80 
网 站 分 析 68 
编程 50 
工程 学 29 
数学 19 


其 他 41 
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在 Illustrator 的 电子 表格 中 输入 数据 ， 如 图 5-3 所 示 。 你 输入 数字 的 顺序 会 下 接 影响 到 饼 图 中 
各 个 株 形 的 顺序 ， 它 们 从 项 部 开始 ， 然 后 以 顺 时 针 方向 依次 排列 。 








图 5-3 Ilustrator 中 的 电子 表格 


请 注意 投票 结果 由 大 到 小 进行 了 排序 ,并 且 以 “其 他 ”类 别 作为 结束 。 这 种 排序 可 以 让 你 的 
饼 图 更 加 容易 阅读 。 单 击 弹出 窗口 右上 角 的 色 号 ， 图 表 就 创建 成 功 了 。 

















提示 HHlustrator 中 的 电子 表格 只 是 一 个 简要 工具 ， 你 无 法 通过 它 对 数据 进行 修改 或 者 排序 。 
解决 办 法 是 先 用 Microsoft Excel 把 所 有 的 数据 都 处 理 好 ， 然 后 再 复制 粘贴 到 Tllustrator 
中 去 。 


默认 的 饼 图 中 出 现 了 8 个 不 同 灰 度 的 棉 形 ， 闫 色 似 乎 并 无 明确 顺序 ， 并 且 市 有 黑色 边框 ， 如 
图 5-4 所 示 。 它 看 上 去 有 点 像 一 个 灰色 的 棱 棱 糖 ， 不 过 很 容易 就 能 改变 这 一 点 。 最 草 要 的 是 你 已 
经 得 到 人 饼 图 的 雏形 了 。 








图 5-4 默认 的 饼 图 
现在 让 我 们 来 增强 饼 图 的 可 读 性 ， 比 如 改变 颜色、 添加 文本 ,以 癌 读 者 解释 他 们 看 到 的 是 什 











么 。 现 在 的 饼 图 颜色 并 没有 什么 含义 ,它们 的 作用 只 是 分 开 栅 形 而 已 , 但 我 们 可 以 利用 颜色 来 告 
诉 读者 哪些 是 重点 、 避 循 了 何 种 顺序 。 毕 范 你 好 不 容易 才 把 数据 按 大 小 排 好 友 。 
如 有 果 你 从 12 点 钟 方向 开始 然后 顺 时 针 旋 转 , 应 该 会 发 现 数值 的 大 小 呈 逐 步 下 降 的 趋势 。 然而 
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现在 的 颜色 是 任意 分 配 的 ， 有 一 些 较 小 的 枢 形 反而 颜色 更 次, 得 到 了 强调 。 颜 色 的 深浅 代表 重点 
的 强 弱 ， 因 此 我 们 应 该 让 较 大 的 模 形 使 用 更 深 的 颜色 ,而 较 小 的 柜 形 使 用 较 浅 的 颜色 。 如 采 你 硕 
望 强调 那些 获得 票数 较 少 的 答案 , 那么 束 应 该 将 磊 色 的 深浅 反 过 来 。 不 过 在 这 次 投票 中 ,你 布 望 
知道 的 是 有 哪些 数据 领域 最 受 欢 迎 。 














提示 闫 色 会 极 大 地 影响 人 们 对 图 表 的 阅读 。 它 不 仅 是 美学 元 素 一 一 尽管 有 时 候 确实 如 此 。 闫 
色 和 长 度 、 面 积 一 样 可 以 作为 视觉 线索 ， 因 此 务必 明智 地 进行 选择 。 





在 “工具 ”面板 单 击 直 接 选 择 工具 ， 然 后 选中 有 东 个 枫 形 。 通 过 “颜色 ”面板 中 的 控件 来 改变 
填充 色 和 边框 色 。 图 5-5 显 示 了 同样 的 饼 图 , 但 是 边框 变 成 了 白色 ,而 且 各 横 形 按 从 深 到 浅 排 列 。 
现在 更 容 多 识别 出 数值 按 从 大 到 小 排列 了 ， 不 过 最 后 一 个 枢 形 “Other” 除 外 。 

当然 ， 在 颜色 上 不 必 如 此 市 俭 。 你 可 以 使 用 任何 喜欢 的 颜色 ， 就 像 图 5-6 中 那样 。 一 般 来 说 ， 
不 要 使 用 过 于 明亮 的 颜色 , 因为 你 不 想 刺激 到 读者 的 眼睛 。 不 过 如 有 果 你 的 主题 适合 用 晃 眼 的 颜色 ， 
不 妨 放纵 一 下 。 














图 5-5” 闫 色 按 从 诬 到 浅 排 列 的 饼 图 图 5-6 着色 后 的 饼 图 ( 男 见 彩 择 图 5-6 ) 


由 于 这 是 FlowingData 发 起 的 投票 ,我 借用 了 FlowingData 网 站 logo 的 红色 系 ， 人 然后 以 逐步 
降低 不 透明 度 的 方法 来 逐渐 减弱 色彩 。 你 可 以 在 “透明 度 ”( Transparency ) 面板 中 找到 这 个 
选项 。 不 透明 度 为 0 时 ,填充 色 就 会 完全 看 不 见 ; 不 透明 度 为 100 多 时， 填充 色 就 不 会 有 任何 透 
明 感 。 











说 明 当 你 调整 不 透明 度 时 ， 闫 色 会 与 背景 色相 混合 。 本 例 中 的 背景 是 白色 的 ， 所 以 透明 度 越 
高 时 颜色 就 会 体现 出 褪色 的 感觉 。 但 如 果 背 景 是 蓝 色 的 ， 颜 色 就 会 越 来 越 紫 。 


最 后 ， 通 过 文字 工具 添加 标题 、 文 字 说 明 以 及 各 个 标签 。 你 可 以 任意 选择 自己 吾 欢 的 字体 ， 
不 过 在 考虑 文本 的 位 置 时 ，Illustrator 的 对 齐 工具 会 非常 有 用 。 将 标签 文子 进行 合理 地 、 均 匀 地 分 
布 ， 这 样 能 让 你 的 图 表 更 加 易 读 。 你 还 可 以 使 用 钢笔 工具 为 最 后 三 个 投票 类 别 绘制 第 头 ( 见 
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图 5-7 )。 这 些 模 形 的 面积 过 小 ,不 能 把 标签 放 到 它们 的 内 部 ， 而 且 彼 此 间 过 于 接近 ， 标 签 放 在 邻 
近 的 位 置 可 能 会 造成 彼此 混 消 。 


哪些 与 数据 相关 的 领域 你 最 感 兴趣 ? 


以 下 是 FlowingData 网 站 在 2009 年 5 月 进行 的 一 次 
又 标的 结 示 。 参 与 者 米 日 1- 多 个 领域 ， 但 统计 学 ， 
设计 和 税务 领域 成 为 了 卡 导 。 


-了 > 
| 
工程 学 一 

编程 





图 5-7 ” 带 有 标签 和 说 明文 字 的 最 终 饼 图 ( 另 见 彩 插图 5-7 ) 
5.2.2 ”面包 圈 图 


我 们 的 好 朋友 饼 图 还 有 个 小 兄弟 : 面包 圈 图 。 它 和 饼 图 很 相似 ,但 在 中 间 有 一 个 洞 ， 看 起 来 
更 像 面 包 圈 ， 如 图 $-8 所 示 。 








整体 中 的 各 个 部 分 本 弧 长 


所 有 模 形 的 总 和 应 该 代 “…。 ”数值 与 弛 长 成 正比 ， 
表 整 体 ， 也 就 是 100% “总 和 为 面包 图 的 圆周 


圆 激 


面包 圈 中 的 每 一 个 部 分 都 
代表 着 某 个 类 别 或 数值 





图 5-8 ”面包 圈 图 的 基本 框 染 
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由 于 圆 形 中 间 有 一 个 洞 ,你 不 能 再 通过 角度 来 衡量 数值 了， 而 要 通过 各 弧 形 的 长 度 。 如 来 在 
一 个 图 表 中 包含 过 多 类 别 ,对 这 种 类 型 的 图 表 也 会 造成 同样 的 问题 , 但 如 果 类 别 较 少 的 话 ， 面 包 
图 图 用 起 来 也 是 很 顺手 的 。 

创建 面包 

在 Ilustrator 里 面 创 建 面 包 圈 图 非常 简单 。 像 之 前 那样 创建 一 个 饼 图 , 然后 在 中 心 处 放置 一 个 
实心 圆 ， 如 图 5-9 所 示 。 同 样 用 颜色 来 引导 谈 者 的 视线 。 

















哪些 与 数据 相关 的 领域 你 最 感 兴趣 ? 


以 下 是 FlowingData 网 站 在 2009 年 5 月 进行 的 一 次 投 
票 的 结果 。 参 与 者 来 自 于 多 个 领域 ， 但 统计 学 、 设 
计 和 商务 领域 成 为 了 主导 。 


数学 ”其 他 
工程 学 村 | 








图 5-9 ”从 饼 图 到 面包 轿 图 
很 多 时 候 ， 面 包 图 图 的 中 心 都 用 于 放置 标签 或 者 其 他 内 容 ， 就 像 图 5-9 一 样 。 





提示 需要 记 住 的 是 ， 饼 图 和 面包 图 图 很 容 和 为 就 会 变 乱 。 它 们 本 来 就 不 适合 应 对 较 多 数值 。 





现在 让 我 们 再 创建 一 次 这 个 图 表 ， 不 过 用 的 是 为 一 蒜 免 费 且 开源 的 可 视 化 工具 Protovis。 它 
是 一 个 通过 JavaScript 实 现 的 函数 库 , 利用 了 现代 浏览 大 的 可 缩放 矢量 图 形 (SVG , Scalable Vector 
Graphics ) 功能 。 图 形 可 以 动态 创建 ,而且 支持 动画 和 交互 行为 ,这 让 Protovis 非 常 适 合 在 线 创建 
图 表 。 


了 > 访问 http://vis.stanford.edu/protovis/ 下 载 Protovis， 把 它 解 压 后 放 在 你 存储 示例 文件 的 文件 


夹 里 。 
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虽然 我 们 要 用 到 的 是 为 一 种 编程 语言 ， 但 步 比 和 之 前 用 R 与 Tllustrator 的 时 候 完 全 一 样 。 站 先 
载 和 数据 ， 然 后 生成 基础 图 表 ， 最 后 是 关 感 上 的 改进 。 

图 5-10 显 示 了 我 们 希望 达到 的 效果 。 它 和 图 5-9 很 类 似 , 但 标签 部 被 设置 了 角度 , 而 且 当 鼠标 
其 集 在 各 弧 形 上 时 ， 可 以 看 到 相应 的 投票 数量 。Protovis 可 以 文 持 更 高 级 的 交互 行为 ， 不 过 我 们 
还 吓 从 基础 开始 吧 。 








图 5-10 “利用 Protovis 创 建 的 面包 圈 图 


你 要 做 的 第 一 件 事 是 创建 一 个 HTML 网页， 将 其 命名 为 donut.html。 
<html»> 
«<head> 
<title>Donut Chart</title> 
“Script type="teéext/Javascript"” src="protovis-r3.2.]5"></script> 
<style type='"text/css'"»> 
#figure { 
width: 400px; 
height: 400px; 
} 
</Sstyle> 
</head> 


<body> 
<div 1d="figure"> 
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</div><!-- @ 结 束 figure --> 

</body> 

</html> 

如 果 你 曾经 创建 过 网 页 ， 那么 以 上 代码 是 很 容易 看 懂 的 。 如 采 你 没有 相关 经 验 ， 这 段 代码 其 
实在 网 上 随处 可 见 ， 你 可 以 轻松 找到 。 每 一 个 网 页 都 会 以 <htm1> 标 签 开始 ， 它 的 后 面 是 <head> 
标签 ， 里 面包 含有 关于 页 面 的 信息 ， 但 不 会 显示 在 浏览 需 窗 口中 。 只 有 <body> 标 签 中 封 财 的 所 
有 内 容 才 是 可 见 的 。 将 页 面 的 标题 (title ) 设置 为 Donut Chart， 并 通过 <script> 标 签 载 人 Protovis 
陋 数 库 ， 也 就 是 JavaScript 文 件 。 之 后 再 指定 一 些 CSS， 它 们 被 用 于 定制 HIML 页面 的 样式 。 在 这 
里 简单 一 点 就 行 了 ， 将 id 为 figure 的 <div> 的 宽度 和 高 度 都 设 定 为 400 像 系 。 你 将 会 在 它 里 面 绘制 
图 表 。 以 上 的 HIML 人 代码 并 不 是 图 表 的 组 成 部 分 ， 但 却 是 必需 的 ， 因 为 只 有 有 了 它 ， 后面 的 
JavaScript 才 会 正确 地 载 人 到 浏览 硕 中 。 现 在 用 浏览 硕 打 开 donuthtml 文 件 ， 你 看 到 的 只 是 一 个 空 
日 的 页面 。 

在 id 为 figure 的 <div> 里 ,指定 你 要 写 的 代码 是 JavaScript。 后 面 的 代码 都 位 于 这 两 个 <script> 























<script type="text/Javascript+protovis'> 
</script> 


现在 走 好 第 一 步 : 数据 。 我 们 关注 的 依然 是 FlowingData 网 站 的 投票 结果 ， 你 需要 将 它们 存 
储 在 数组 中 。 一 个 数组 用 于 存储 投票 数量 ,为 一 个 用 于 存储 相应 的 类 别名 称 。 


var data = [172,136,135,101,80,68,50,29,19,41]; 





var cats = [" 统 计 学 "，" 设 计 "，" 商 务 "，" 制 图 学 "， 
"信息 科学 "，" 网 站 分 析 "，" 编 程 "， 
"工程 学 "， "数学" ，" 其 他 "]; 








然后 指定 面包 圈 图 的 宽度 、 高 度 、 半 径 长 度 以 及 弧 长 范围 。 
var w = 350, 

h = 350, 

r=w/ 2, 

a = pv.Sscale.lineartd, pv.sum(data)).rangeto, 2 * Math.PID)i 


面包 圈 图 的 宽度 和 高 度 都 是 350 像 素 ， 半 径 〈 图 表 中 心 到 外 围 的 距离 ) 是 宽度 的 一 半 ， 也 就 
是 175 像 素 。 第 4 行 指 定 了 弧 形 的 标 度 。 这 样 来 理解 它 : 真正 的 数据 是 一 个 线性 比例 ， 从 0 到 所 有 
投票 的 总 和 ， 也 就 是 总 票数 。 然 后 把 这 个 比例 换算 成 面包 圈 的 比例 ， 即 0 ~ 2x 的 弧度 ， 如 果 你 习 
惯 按 角 度 来 考虑 ， 那么 也 就 是 0 ~ 360° 。 

之 后 是 设 定 颜色 的 变化 。 某 个 类 别 获得 的 票数 越 多 ， 它 的 红色 就 应 该 越 瞳 。 在 Illustrator 里 面 
你 必须 手动 去 调 色 ， 但 Protovis 可 以 目 动 为 你 选择 颜色 。 你 只 需 定义 想 要 的 颜色 范围 即 可 。 

var depthColors = pv.Scale.linear(t0, 172).range( white", "#821122"); 

现在 你 设 定 了 颜色 从 白色 到 上 暗 红色 ( 也 就 是 #821122 )。 这 是 一 个 线性 范围 ， 从 0 到 172， 后 
者 是 单个 类 别 的 最 高 票数 。 换 句 话 说 , 票数 为 0 的 类 别 会 显示 为 白色 ,票数 为 172 的 类 别 会 显示 为 
瞳 红 色 。 紧 数 在 这 个 范围 内 的 各 类 别 会 显示 为 日 色 和 上 暗 红 色 之 间 的 某 个 颜色 。 
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到 目前 为 止 , 我 们 定义 的 都 是 一 些 变 量 , 分 别 指定 了 尺寸 和 标 度 。 要 想得到 实际 的 图 表 ， 首 
先 需 要 创建 一 个 350 像 素 宽 、350 像 素 高 的 空白 区 域 ( panel )。 

var vis = new pv.Panel() 

.Width(Cw) 

.heightth); 
然后 往 这 个 区 域 中 添加 内 容 , 在 本 例 中 就 是 模 形 。 以 下 代码 可 能 会 让 你 有 些 困 惑 ， 我 会 逐 行 
v1s.addpyv.Wedge) 

.data(ldata) 

bottom(tw / 2) 

‘left(w / 2) 

,innerRadius(r - 120) 

.OuUterRadius(r) 

fillStyle(function(d) depthColorscd)) 

.StrokeSstyle("#fff") 

.angle(a) 

.title(function(d) String(d) + "对") 

.anchorC"center'").add(Cpv.Label) 

.text(functioncd) cats[this.index]): 


第 一 行 说 的 是 你 正在 往 空 日 区 域 中 添加 横 形 ， 分 别 对 应 数组 中 的 每 一 个 数据 。bottom() 和 
left (参数 指定 了 横 形 的 朝 同 ， 使 它们 的 尖端 放置 在 圆 形 正中 。innerRadius(《) 指 定 了 辆 心 那 
个 洞 的 半径 , 而 outerRadius CO) 则 是 整个 圆 形 的 半径 。 这 两 者 确定 了 横 形 的 大 小 。 这 些 代 码 指 定 
了 面包 图 图 的 几何 结构 。 

在 填充 颜色 方面 ， 并 非 给 填充 样式 ( fill style ) 指定 一 个 静态 色 值 ， 而 是 由 各 个 数据 的 值 以 
及 存储 了 颜色 范围 的 depthColors 变 量 来 决定 。 换 句 话 说 ,填充 色 是 由 各 个 数据 点 的 函数 决定 的 。 
此 外 添加 了 白色 (#fff ) 边框 ， 由 strokeStyle() 指 定 。 之 前 定义 的 缴 长 标 度 可 以 确定 每 一 个 
枫 形 的 角度 大 小 。 

我 们 希望 在 读者 将 鼠标 移动 到 某 个 区 间 上 时 显示 该 类 别 获 得 了 多 少 票数 ， 因 此 这 里 用 到 了 
title() 来 显示 提示 文本 。 你 也 可 以 创建 一 个 mouseover 事 件 来 指定 当 用 户 把 鼠标 移动 到 某 个 对 
象 上 时 发 生 什么 ,但 浏览 絮 本 来 就 自动 支持 显示 title 属 性 内 的 值 ， 所 以 用 title() 会 更 省 事 一 
些 。 让 每 一 个 数据 点 的 title 显 示 该 数据 点 的 从 ,然后 青 加 上 “ 票 ” 以 让 表意 更 加 清楚 。 最 后 为 
每 一 个 区 间 添 加 标签 。 现 在 只 剩 下 在 图 表 中 心 的 洞 里 加 上 “2009 年 5 月 ”了 。 

vis.anchor("center'").add(lpyv.Label) 

.fontC"bold 14px Georgia'") 
.text("2009 年 5 月 ") 

以 上 代码 可 以 理解 为 :“ 在 图 表 中 心 添 加 标签 ， 字 体 是 14 像 系 的 Georgia 粗 体 ， 内 容 是 “2009 
年 5 月 ”。” 

所 有 的 元 素 都 搭建 完毕 ， 现 在 你 可 以 渲染 图 形 了 。 


v1is.renderd): 
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在 浏览 硕 里 打开 donut.html， 你 就 会 看 到 图 $-10 的 效果 。 


了 > 访问 http://book.flowingdata.com/ch05/donut.html 看 一 下 图 表 的 在 线 效 果 ， 并 且 查 看 完整 的 


源 代码 。 





如 采 你 是 编程 新 手 ， 这 一 贡 的 内 容 可 能 会 让 你 感到 有 些 气 外 。 但 好 消息 是 Protovis 有 很 多 实 
例 教程 可 供 学 习 。 官方 网 站 上 有 许多 可 运行 的 实例 ， 其 中 既 有 传统 的 统计 学 图 表 , 也 有 更 高 级 的 
可 交互 式 动画 图 表 ， 而且 你 可 以 使 用 自己 的 数据 。 所 以 如 果 你 感到 有 些 泪 丧 , 和 干 万 不 要 就 此 灰心 
丧气 。 你 现在 稍微 付出 一 些 努 力 , 很 快 就 能 掌握 其 中 的 寄 门 ， 而 且 将 会 获得 丰厚 的 回报 。 让 我 们 
在 下 一 人 再 来 看 看 Protovis 。 


5.2.3 ”比例 中 的 堆 妓 


在 上 一 莉 我 们 用 堆 蕉 柱 形 图 呈现 了 随时 间 变 化 的 数据 , 但 它 的 能 力 并 不 只 限于 时 间 数 据 。 如 
图 5-11 所 示 ， 你 还 可 以 用 堆 仅 柱 形 图 来 表现 类 别 数据 。 











通过 从 0 开始 的 
数值 ， 标 识 出 
图 表 的 齐 度 二 内 部 柱 形 高 度 
， 代表 该 子 分 类 的 数值 


x 


柱 形 高 度 
代表 每 个 类 别 的 总 数值 


汪 


类 别 轴 
每 一 个 柱 形 代表 一 个 类 别 ， 每 一 
个 堆 秋 代表 类 别 中 的 一 个 子 分 类 











图 $-11 按 类 别 划 分 的 堆 县 柱 形 图 
比如 说 , 让 我 们 看 一 下 2010 年 7 月 和 8 月 间 由 盖 洛 普 公 司 ~ 和 哥伦比亚 广播 公司 举办 的 一 次 有 
关 奥 巴 马 总 统 支持 率 的 民意 调查 。 参 与 者 被 问 到 他 们 是 否 支 持 奥 巴 马 有 关 13 个 主要 问题 的 政治 
举措 。 








盖 治 普 公 司 由 乔治 ' 盖 洛 普 于 1935 年 创立 ， 是 全 球 知名 的 民意 测验 和 商业 调查 咨询 公司 。 乔 治 . 盖 洛 普 〈Gallup 
George Horace，1901 一 1984 ) 是 美国 著名 的 数学 家 、 社 会 科学 家 ， 抽 样 调查 方法 的 创始 人 、 民 意 调查 的 组 织 
他 几乎 是 民意 调查 活动 的 代名词 。 
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以 下 是 以 表格 形式 给 出 的 各 个 数字 。 


加 题 
种 族 关 系 
教育 
用: 怖 活动 

能 产 政 策 

外 交 事 务 
环境 
伊 拉 元 局 势 
税收 

医疗 保健 政策 
阿富汗 局 势 
联邦 预算 赤字 
外 来 移民 


我 们 可 以 为 每 一 个 问题 创建 一 个 饼 图 ， 如 图 5-12 所 示 。 要 想 用 Illustrator 


行 数据 即 可 。 每 一 行 数据 都 会 生成 一 个 饼 图 。 
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近期 民意 调 杏 显示 ， 民 众 对 巴 斥 克 :奥马 马 在 种 族 基 系 癌 题 上 
的 举措 持 有 sS29%6 的 支持 率 。 这 也 是 以 下 13 个 阿 题 中 他 唯一 张 得 


多 数 文 持 的 蔡 指 。 人 在 其 中 8 个 问题 上 他 都 多 得 了 多 数 反 对 。 


支持 反对 不 发 表意 见 
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45 


已 怖 活动 


环境 伊拉克 局 势 * 


阿富汗 局 势 * 联邦 预算 赤字 ”外 来 移民 


图 5-12 ”系列 饼 图 ( 男 见 彩 插图 5-12 ) 


医疗 保健 政策 


标 有 星 号 (*) 的 结果 源 自 7 月 27 日 
至 8 月 1 日 的 今日 美国 / 
查 。 其 他 结果 源 自 8 月 5 日 至 8 日 的 
盖 洛 普 民 意 调查 ， 


盖 洛 


癌 . /全 


对 


经 济 





普 民 意 调 


不 发 表意 见 
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不 过 , 堆 著 柱 形 图 会 让 你 更 容易 地 比较 各 个 问题 的 支持 率 ， 因 为 与 棉 形 的 角度 相 比 ， 人 们 对 
柱 形 高 度 更 加 敏感 ,所 以 让 我 们 尝试 一 下 ,在 Illustrator 里 面 可 以 直接 通过 堆积 柱 形 图 工具 ( Stacked 
Graph tool ) 生成 堆 私 柱 形 图 ， 这 次 我 们 再 往 里 面 添加 一 些 简 单 的 交互 行为 。 

创建 可 交互 堆 簿 柱 形 图 

和 面包 圈 图 一 样 , 我 们 也 用 Protovis 来 创建 可 交互 堆 闭 柱 形 图 。 图 5-13 显 示 了 最 终 的 效果 。 我 
们 需要 实现 两 个 基础 的 交互 行为 : 第 一 个 是 当 鼠 标 悬 停 在 某 个 堆 登 上 时 显示 它 的 百分比 值 ， 第 二 
个 是 根据 鼠标 的 位 置 高 亮 显 示 该 类 别 所 对 应 的 所 有 文 持 、 反 对 或 者 不 发 表意 见 的 柱 形 。 

















巴 拉 克 “ 奥巴马 的 支持 率 

近期 民意 调查 亚 示 ， 民 然 对 巴 拉 克 : 岗 巴 马 企 种 族 关 系 问 题 上 的 
举 捕 持 有 52% 的 支持 率 。 这 也 是 以 下 13 个 辐 题 中 他 唯 :获得 多 妆 
支持 的 举措 。 在 其 中 8 个 问题 上 他 都 歼 得 了 多 数 反 对 。 
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图 $-13 ”利用 Protovis 创 建 的 可 交互 堆 色 柱 形 图 ( 另 见 彩 插图 $-13 ) 
一 开始 先 创 建 HTML 页 面 ， 并 且 载 人 必需 的 Protovis JavaScript 文 件 。 


<html> 
<head> 
<title>Stacked Bar chart</title> 
<script type='"text/Javascript” src="protovis-r3.2.]s"></script> 
</head> 
<body> 
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<div 1d="figure-wrapper'"> 
<div 1d="figure'"> 


</div><!-- @ 结 束 fi1gure --> 
</div><!-- @ 结 束 fi1gure-wrapper -=-> 
</body> 
</html> 
这 段 代 码 应 该 很 眼熟 ， 和 用 Protovis 创 建 的 面包 圈 图 时 所 做 的 一 样 。 唯 一 的 区 别 在 于 页 面 的 
标题 变 成 了 “Stacked Bar Chart”， 而 且 增 加 了 一 个 id 为 figure-wrapper 的 <div>。 我 们 也 没有 添加 
任何 CSS 样 式 ， 这 个 可 以 留 在 后 面 去 做 。 
现在 开始 写 JavaScript。 在 id 为 figure 的 <div> 中 ， 以 数组 的 形式 载 人 数据 (也 就 是 奥巴马 的 文 
撩 诸 旋 
<script type= "textA]avascr1pt+protovw1s"> 
var data = { 


"Issue":[" 种 族 关系 ", "教育 "," 刺 怖 活动 ", "能 源 政策 ", "外交 事务 ", "环境 ", "伊拉克 
局 势 "， "税收 ", "医疗 保 健 政策 ", "经 济 ", "阿富汗 局 势 ", "联邦 预算 杰 字 "," 外 来 移民 "]， 
"支持 ":[52,49,48,47,44,43,41,41,40,38,36,31,29]， 

"反对 ": [38,40,45,42,48,51,53,54,57,59,57,64,62]， 

"不 发 表意 见 ": [10,11,7,11,8,6,6,5,3,3,7,5,9] 

















</script> 

从 中 可 以 看 出 ， 对 应 种 族 关 系 的 支持 率 和 反对 率 分 别 是 52% 和 38%。 与 之 类 似 ， 对 应 教育 的 
文 持 率 和 反对 率 分 别 是 49% 和 40%。 

为 了 便于 编写 图 表 部 分 的 代码 ， 你 可 以 把 数据 分 开 存 储 为 两 个 变量 。 

var cat = data.lIssue;: 

var data = [data.Approve, data.Disapprove, data.None]: 

Issue (问题 ) 数组 被 存储 到 cat 变 量 中 ， 而 data 变 量 则 是 一 个 包含 数组 的 数组 。 

为 锅 度 、 高 度 、 斥 度 比 例 和 颜色 设 定 必 要 的 变量 ， 代 人 码 如 下 : 

var Ww = 400, 

h = 250, 

x = pv.Sscale.ordinal(cat),.splitBanded{O0, w, 4/5), 

y = pv.Scale,.linear(t0, 100).range(0, h), 

fill = [#809EAD", "#B]COC9", "#D7D6CB"]: 


图 表 会 有 400 像 素 宽 ，250 像 系 高 。 水 平 轴 的 标 度 是 有 顺序 的 ， 表 示 你 设 定 的 各 个 类 别 ， 它 们 
之 间 并 非 延 续 性 的 关系 。 类 别 也 就 是 调查 中 涉及 的 那些 问题 。 图 表 宽 度 的 4/5$ 用 于 柱 形 ， 其 他 空 
间 用 于 各 柱 形 间 的 间隔 。 

垂直 轴 表 现 的 是 百分比 ， 是 一 个 0 ~ 100% 的 线性 标尺 。 各 柱 形 的 高 度 可 以 从 0 像素 一 直到 图 
表 的 顶端， 也 就 是 250 像 素 。 
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最 后 ,填充 色 通过 一 个 16 进 制 的 数组 来 指定 。 浴 蓝 色 代表 文 持 ， 浅 蓝 色 代表 反对 ， 浅 灰色 代 
表 不 发 表意 见 。 你 也 可 以 按 目 己 的 豆 好 改 用 其 他 颜色 。 














向 如 果 你 不 知道 应 该 用 什么 颜色 ，http:Wcolorbrewer2.org 网 站 上 的 ColorBrewer 可 能 会 有 所 帮 
助 。 在 该 工具 内 指定 需要 的 颜色 数量 和 颜色 类 型 ， 它 就 能 提供 适当 的 色 标 ， 方便 你 以 多 种 格 
式 进 行 复 制 。http://0to255.com 上 的 0to255 综 合 性 更 强 ， 但 我 主要 还 是 用 前 者 。 











下 一 步 , 用 已 指定 的 宽度 和 高 度 进行 可 视 化 的 初始 化 。 之 后 的 代码 为 实际 图 表 提 供 了 周围 的 
空白 空间 ， 以 便 添加 坐标 轴 标 签 。 比 如 说 ，bottom(90) 将 水 平 轴 往 上 提升 了 90 像 素 。 你 可 以 把 
这 个 操作 看 作 是 设置 空白 的 画布 。 
var vis = new pv.Panel() 
.Width (Cw) 
.heightch) 
.bottom(90) 
.left(32) 
.right(10) 
.top(15); 
Protovis 为 堆 秋 图 表 提 供 了 一 种 特殊 的 布局 ， 其 名 称 也 很 恰当 ， 就 叫做 “ 堆 大 "(Stack ), 方 
便 在 画布 中 添加 堆 蕉 柱 形 。 虽然 本 例 中 添加 的 是 堆 芋 柱 形 图 , 但 该 布局 同样 适用 于 堆 车 面积 图 和 
流 线 图 。 将 新 的 版 式 存储 到 bar 变 量 中 。 
var bar = v1is.addtpv.Layout,.Stack) 
.layerstdata) 
.x(CfunctionC) xithis.index)) 
yfunction(d) ycCd)) 
.layer.add(pyv.Bar) 
.fillsStylecfunctiont) fill[this.parent.index]) 
.Width(x.range(l).band) 
.titletfunction(td) d + "%") 
.eventC'"'mouseover", functionC) this.fillStyle('"#555")) 
.event( "mouseout", functiont) 
this.fillstyle(fill[this.parent,.index])); 


男 一 条 思路 是 把 这 个 图 表 视 作为 三 个 层 , 分 别 代表 文 持 、 反 对 和 不 发 表意 见 。 还 记得 我 们 刚 
才 是 怎样 把 这 三 组 数据 构建 为 一 个 新 数组 的 吗 ” 用 1ayers 〇 调用 它 ， 而 x 和 y 依 然 保持 你 之 前 设 
定 的 标尺 。 

对 每 一 个 层 用 pv .Bar 来 添加 柱 形 ， 用 fi11Style() 来 指定 填充 色 。 请 注意 ， 我 们 使 用 了 一 
个 名 为 this .parent.index 的 也 数 。 这 样 一 来 柱 形 就 会 根据 它 所 属 三 个 层 中 的 其 中 一 个 进行 
色 。 如 果 这 里 我 们 用 的 是 this.index， 你 就 必须 为 每 一 个 柱 形 ， 也 就 是 39 (3 x 13 ) 个 柱 形 设置 
颜色 。 每 个 柱 形 的 宽度 都 是 相同 的 ， 有 具体 数值 可 以 从 之 前 已 指定 的 水 平 轴 的 顺序 标尺 中 得 到 。 
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上 面 的 最 后 三 行 代码 给 图 表 赋 了 予 了 交互 功能 。 在 Protovis 里 用 title 〇 就 相当 于 给 HTML 元 
系 ( 如 图 片 ) 设置 title 属 性 。 如 采 给 网 页 中 的 图 片 设 置 了 title， 那 么 当 鼠 标 巧 俘 到 图 片上 时 
就 会 出 现 文 本 提示 。 与 之 类 似 ， 当 鼠标 是 停 到 柱 形 上 时 也 会 出 现 文本 提示 。 我 们 在 这 里 只 是 简单 
地 让 文本 提示 显示 该 柱 形 所 占 的 百分比 伸 ， 其 后 跟随 百分比 符号 ( % )。 

为 了 让 鼠标 移动 到 柱 形 上 时 高 忱 显示 相应 的 层 ， 我们 用 到 了 event()。"mouseover" 时 填充 
的 是 深 灰 色 (#555 )， 而 当 鼠 标 移 出 时 ,，"mouseout" 事 件 将 各 柱 形 恢 复 初 始 颜色 。 


提示 “Protovis 支 持 的 交互 行为 不 是 仅 限 于 和 鼠标 悬 停 效果 , 你 也 可 以 设置 诸如 单 击 、 双 击 等 行为 。 
查阅 Protovis 说 明 以 了 解 更 多 细节 。 


最 后 你 需要 演 染 图 形 以 便 生 成 图 表 。 在 JavaScript 代 人 码 最 后 输入 以 下 代码 : 

v1is.renderd): 

这 行 代码 的 意思 是 :好 ,我 们 已 经 准备 好 了 所 有 的 部 件 ,现在 绘制 出 图 形 吧 ,在 浏览 右 ( Firefox 
或 Safari 等 现代 浏览 大 ) 中 打开 网 页 ， 你 束 会 看 到 类 似 图 5-14 中 的 图 表 。 


~ 
| 
5 | 








图 5-14 ”没有 添加 标签 的 堆 苔 柱 形 图 





妥 标 移动 到 菏 个 柱 形 上 时 ,相应 的 层 会 被 蜗 腕 显示 , 与 此 同时 会 出 现 文本 提示 。 不 过 现在 还 
缺少 一 些 元 系 ， 也 就 是 坐标 轴 和 标签 。 把 它们 诬 加 进来 。 
在 图 5$-13 中 的 柱 形 上 有 数字 标签 。 不 过 标签 只 出 现在 较 高 的 柱 形 上 ， 灰 色 的 柱 形 则 没有 。 以 
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下 是 实现 方法 。 请 注意 这 些 代码 位 于 vis.renderG) 的 前 面 。 永 远 都 把 泻 染 工作 留 在 最 后 。 
bar.ancherft center" .addfpv.Labpely 
visibletfunction(td) d > 11) 
.textStyle(C"'white") 
.textfunctiontd) d.toFixed CO)): 


仿 查 每 一 个 柱 形 是 否 大 于 11%。 如 果 大 于 ， 那么 就 在 柱 形 的 正中 间 绘 制 一 个 日 色 的 标签 ， 它 
显示 了 所 占 百 分 比 四 舍 五 人 后 的 整数 数值 。 
现在 为 zx 轴 上 的 每 一 个 问题 深 加 标签 。 理 想 情 况 是 所 有 标签 都 水 平 显示 , 但 很 明显 位 置 不 够 。 
如 有 我 们 的 图 表 是 横 回 的 柱 形 图 ， 那 么 标签 倒是 能 够 水 平 放下 ， 不 过 在 本 例 中 ， 我 们 将 它们 以 
45” 和 斜 回 显 示 。 当 然 你 也 可 以 把 它们 完全 垂 御 放置， 不 过 那样 会 有 碍 于 阅读 。 
bar.anchor("bottom").addtpyv.Label) 
visible(functionC) !this.parent.index) 
.textAlign« "right") 
.top(260) 
.leftcfunctionC) x(cthis.index}+20) 


textAngle(-Math.PI1l / 4) 
.text(functionty cat[lthis.index]): 
这 段 代码 的 原理 和 往 柱 形 中 间 添 加 数字 标签 相同 。 不 过 , 这 次 只 会 回 位 于 底部 的 柱 形 添 加 标 
签 ， 也 就 是 代表 支持 的 柱 形 。 然 后 利用 textA1ign() 和 topO 〇 将 文本 右 对 齐 ， 并 设置 它们 的 绝对 
于 直人 位 置 。 它们 的 xz 轴 位 置 是 根据 相应 标签 的 柱 形 位 置 决定 的 。 -个 标签 部 被 旋转 了 45°, 标签 
文本 显示 了 类 别 的 名 称 。 
这 样 我 们 就 有 了 类 别 标签 。 在 竺 百 轴 上 添加 数值 标签 也 是 同样 的 方法 , 不 过 你 还 需要 添加 刻 
度 线 。 
vis.addcpyv.Rule)} 
.dataly.ticksC)) 
.bottom(y) 
.left(C-15) 
.widthcls) 
.StrokeSstylecfunction(d) d > 0 ? "raba(d,0,0,0.3)" : "#000") 
,anchort tep" .add(pv.Label) 
bottom(functionCd) yd)+2) 
.text(function(d} d == 100 ? "J]00%" : d.toFixed(0)): 
我 们 通过 y.ticks 0 为 图 表 添 加 标 凡 (Rule )， 也 就 是 刻度 线 。 突 上 度 线 的 颜色 是 黑色 ， 其 他 
刻度 线 为 灰色 。 代 码 的 第 二 部 分 在 各 刻度 线 的 上 面 添加 标签 。 
现在 还 差 水 平 轴 ， 所 以 还 需要 加 入 为 一 个 标尺 ， 如 图 5-15 所 示 。 
vis.addCpy.Rule) 
bottom(y) 
.left(-15) 
.rightC0) 
.Strokestyle( #000") 
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SEA 
> 


Re 





图 5-15 ”添加 水 平 轴 


说 明文 字 和 其 他 标签 是 用 HTML 和 CSS 添 加 的 。 市 面 上 有 各 种 各 样 的 Web 设 计 书 籍 ， 所 以 这 
里 就 不 再 歼 述 了 。Protovis 是 JavaScript 代码 ， 因 此 与 HTML 和 CSS 可 以 轻松 地 无 颖 结合 使 用 ， 这 
一 点 是 最 棒 的 。 


了 > 访问 http:/book.flowingdata.com/ch0S/stacked-bar.html 浏 览 堆 登 柱 形 图 并 与 之 交互 ， 查 看 源 


代码 了 解 HTML、CSS 和 JavaScript 是 如 何 紧密 协作 的 。 





5.2.4 ”层级 和 矩形 


1990 年 ， 马 里 兰 大 学 的 Ben Shneiderman 发 现 目 己 的 硬盘 总 是 空间 不 够 ， 于 是 希望 通过 可 视 
化 的 方式 来 弄 清 到 底 是 什么 如 此 占据 空间 。 考 虑 到 目录 和 文件 是 层级 结构 的 ， 他 一 开始 用 的 是 
树 形 图 ( tree diagram )。 不 过 由 于 市 点 太 多 、 分 枝 太 多 ,很 快 图 表 就 变 得 过 于 庞大 ， 无 法 为 他 市 
来 帮助 。 





了 > 访问 http:/dataflL.ws/11m 了 解 板 块 层 级 图 的 来 龙 去 脉 ， 以 及 由 创造 者 Ben Shneiderman 亲 身 





描述 的 其 他 全 例 。 
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最 后 他 的 解决 方案 是 板块 层级 图 ( treemap )。 如 图 5-16 所 示 ， 这 是 一 种 基于 面积 的 可 视 化 方 
式 ， 通过 每 一 个 板块 ( 通 第 为 矩形 ) 的 太 十 大 小 进行 度量 。 外 部 矩形 代表 父 类 别 ， 而 内 部 矩形 代 
表 子 类 别 。 你 也 可 以 用 板块 层级 图 显示 单纯 的 比例 关系 ,不 过 在 充分 利用 该 技术 的 情况 下 ， 它 更 
适合 于 显示 层级 结构 ,或 者 更 确切 的 说 ， 树 状 结构 的 数据 。 














整体 中 的 各 个 部 分 面积 
所 有 板块 面积 的 总 和 代 数值 与 板块 的 
表 整体 ， 也 就 是 100% 尺寸 成 正比 


内 部 板块 


表现 出 数据 的 
层级 树 状 结构 





图 5-16 ”板块 层级 图 的 基本 框 染 


创建 板块 层级 

Illustrator 没 有 提供 板块 层级 图 工具 ， 但 R 中 有 一 个 工具 包 可 以 实现 这 一 功能 。 这 个 工具 包 是 
由 Jeff Enos 和 David Kane 开 发 的 ,名 叫 Portfolio。 它 的 开发 初衷 是 对 股票 市 场 投 资 组 合 ( stock market 
portfolio ) 进 行 可 视 化 ( 其 名 由 此 而 得 ), 但 也 完全 适用 于 我 们 自己 的 数据 。 让 我 们 看 看 FlowingData 
网 站 上 最 受 欢 迎 的 100 篇 文 草 的 浏览 次 数 和 评论 数量 ， 然 后 将 它们 按照 文革 类 别 进行 划分 ， 例 如 
Visualization( 可 视 化 ) 或 者 Data Design Tips( 数据 设计 贴 士 )。 








提示 RR 是 一 款 针对 统计 学 计算 的 开源 软件 环境 ,你 可 以 从 http://www.r-project.org/ 免 费 下 载 。R 
的 可 贵 之 处 在 于 它 有 一 个 活跃 的 社区 ， 上 面 经 常会 有 人 开发 新 的 工具 包 来 添加 功能 。 如 
果 你 需要 创建 静态 图 表 ， 而 又 不 知道 从 何 开 始 ，R 将 会 是 一 个 很 好 的 起 点 。 





和 之 前 一 样 ， 第 一 步 是 在 R 中 载 人 数据 。 你 可 以 直接 从 计算 机 里 载 人 ,或 者 指定 URL。 本 例 
中 采用 的 是 后 者 ， 因 为 数据 可 以 直接 在 网 上 找到 。 如 果 你 希望 采用 自己 的 数据 、 直 接 从 计算 机 载 
入 的 话 ， 请 确保 你 的 数据 文件 放 在 了 R 的 工作 路 径 中 。 你 可 以 通过 R 中 的 “文件 ” 采 单 来 修改 工 
作 路 径 。 
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通过 URL 来 载 人 CSV 文 件 非 常 容易 , 它 只 需要 一 行 代 码 , 用 到 了 R 中 的 read.csv(C) 郴 数 ( 人参 
见 图 5-17 )。 


posts <- read.csv("http://datasets.flowingdata.com/post-data.txt") 


态 站 OO R Console a 











RR version 2.8.8 C2008-18-28) 
Copyriaht CCY 2888 The R Foundation for Statistiecal Computing 
ISBN 3-388851-87-8 


R is free software and comes With ABSOLUTELY NO WARRANTY. 
You ore Welcome to redistribute 1it under certain conditions . 
Type "licensel)" or licencel)' for distribution details. 


Natural language support but running in on English locale 


R is ga collaborative project with many contributors. 
Type "contributorsty)" for more information gnd 
‘citaotionC})” on how to cite R or R packoges in publicotions. 


Type demol)" for some demos, "helpt)" for on=line help, or 
help;startCy" for an HTNML browser interface to help. 
Type qc) to quit RR. 


» dota 过 = Fead.cesv( "http://datasets.flowingdata.compost-data. txt") 
于 





图 5-17 ”在 R 中 载 人 CSV 文 件 


很 价 单 , 不 是 吗 ? 我 们 已 经 利用 read.csvGO 载 人 了 一 个 文本 文件 (CSV 格 式 )， 并 且 将 页 面 
的 浏览 量 和 评论 数 都 存储 进 了 一 个 名 为 posts 的 变量 。 正如 上 一 章 所 提 到 的 ,read .csv( 〇 子 数 会 
假设 你 的 数据 文件 是 以 逗号 分 隅 的 。 假 设 你 的 数据 是 以 制 表 符 分 隔 ， 就 需要 用 sep 参 数 来 指定 该 
值 为 \t。 要 是 你 打算 从 本 地 日 录 中 载 入 数据 ， 之 前 的 代码 就 应 该 变 成 这 样 : 

posts <- read.csv("post-data.txt") 

以 上 代码 适用 于 你 已 经 设置 了 相应 工作 路 径 的 情况 。 要 想 深 入 了 解 如 何 利 用 read.csv 〇 也 
数 载 人 数据 ， 在 R 的 输入 合 中 键入 以 下 代码 : 

?read,csv 

让 我 们 继续 。 现 在 数据 已 经 存储 到 了 posts 变 量 中 ， 输 入 以 下 代码 查看 最 开始 的 5 行 数据 。 

posts[1:5,] 

你 应 该 会 看 到 数据 有 4 列 ， 分 别 对 应 原始 CSV 文 件 的 d、views( 浏览 量 )、comments (评论 数 ) 
和 category( 文章 类 别 ), 既然 R 已 经 载 人 了 数据 , 现在 使 用 Portfolio 工 具 包 。 输 入 以 下 代码 来 载 人 它 : 

li1brarytportfolio) 

返回 了 出 错 信息 ?你 可 能 需要 在 使 用 之 前 先 安装 这 个 工具 包 : 

install.packagesC"portfol1i0") 


现在 你 应 该 可 以 载 人 工具 包 了 。 不 再 返回 出 错 信 息 了 吧 ? 很 好 ， 让 我 们 进入 下 一 步 。 
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》》 


提示 你 也 可 以 通过 有 R 的 用 户 界面 来 安装 工具 包 。 在 菜单 中 选择 “工具 包 


冯 


(Packages ) 一 “ 安 


装 工 具 包 ”( Install Packages )。 从 工具 包 列 表 中 找到 需要 的 工具 包 然 后 单 击 “ 确 定 ” 按 钮 
安装。 


Portfolio 工 具 包 通过 一 个 名 为 map .market(0) 的 困 数 来 实现 我 们 想 要 的 效果 。 这 个 因数 包含 许 
多 参数 ， 不 过 我 们 只 需要 用 到 其 中 的 5 个 。 


map.market(id= posts $1id, area=posts$views, group=posts$category, 
color=posts$comments, main="FlowingData Map") 


名 为 id 的 列 给 每 一 篇 文革 指定 了 唯一 的 特征 点 ， 而 你 告诉 R 根 据 文 草 的 浏览 量 来 决定 图 表 中 
各 矩形 的 大 小 , 根据 文章 类 别 进行 分 组 , 同时 根据 每 篇 文章 的 评论 数量 来 决定 矩形 的 闫 色 。 最 后 ， 
以 FlowingData Map 作 为 图 表 的 主 标题 。 殴 回 千 键 获 得 板块 层级 图 ， 如 图 5$-18 所 示 。 





FlowingData Map 
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图 5-18 ”R 葵 认 生成 的 板块 层级 图 ( 为 见 彩 插图 5-18 ) 








虽然 图 形 看 起 来 还 很 粗糙 , 但 整个 图 表 的 基础 和 层级 都 已 经 搭建 起 来 , 这 也 是 最 困难 的 部 分 。 
和 你 指定 的 一 样 ， 每 一 个 矩形 都 代表 一 篇 文 草 ， 太 才 依 页 面 训 览 量 而 定 ， 并 按照 文章 类 别 进 行 了 
分 组 。 明 腕 的 绿色 表明 该 文章 获得 的 评论 数 比 较 多 。 训 览 次 数 多 的 文章 , 获得 的 评论 并 不 一 定 多 。 

在 R 中 把 图 表 存 储 为 PDF 文 件 ， 然 后 用 Tustrator 打 开 。 利 用 各 种 常规 选项 来 调整 边框 、 填 充 
色 、 字 体 ， 去 掉 无 关 的 内 容 ， 并 添加 文字 说 明 。 

对 于 这 个 图 表 而 言 ， 我 们 需要 修改 一 下 标 太 为 -90 ~ 90 的 颜色 说 明 。 负 值 在 这 里 并 无 意义 ， 
因为 文章 的 评论 数 是 不 可 能 为 负 的 。 此 外 标签 也 需要 调整 ,在 较 小 的 矩形 中 它们 被 焉 盖 住 了 。 利 
用 选择 工具 ,根据 矩形 的 尺寸 (也 就 是 该 类 别 的 浏览 量 ) 设置 标签 的 字体 大 小 。 同 时 还 可 以 加 粗 
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各 个 类 别 的 外 边框 ， 让 它们 更 加 明显 。 最 后 的 效果 应 该 如 网 $-19 所 示 。 


FlowngData 地 图 


以 下 是 FlowingData 网 站 中 颇 受 欢迎 的 一 些 文章 。 每 一 个 矩形 代表 一 篇 
文章 。 面 积 代表 文章 的 浏览 次 数 ， 绿 色 越 明亮 (对 应 于 灰 度 越 浅 ) 代 
表 获 得 的 评论 越 多 。 
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图 5-19 ”在 R 中 创建 、 在 Ilustrator 中 编辑 后 的 板块 层级 图 
就 是 这 样 。 现 在 的 各 个 标签 更 加 明显 ,而 且 闫 色 说 明 的 含义 也 更 加 精确 ， 整 个 图 表 变 得 更 加 
易 读 。 为 外 ,我们 还 去 挥 了 深 人 灰色 的 背景 以 提升 简 涪 度 。 当 然 了 ,标题 和 文字 说 明 会 对 阐明 图 表 
的 主旨 提供 玫 助 。 








> 在 “How the Giants of Finance Shrank, Then Grew, Under the Financial Crisis” 一 文中 ,，《 纽 
约 时 报 ) 使 用 了 动态 的 板块 层级 图 来 显示 金融 危机 时 期 股票 市 场 的 变化 ,地 址 是 http://nyti.ms/ 


9JUKWL。 








Portfolio 工 具 包 在 这 一 过 程 中 承担 了 绝 大 部 分 工作 。 所 以 如 末 你 打算 采用 目 己 的 数据 ， 唯 一 
需要 注意 的 地 方 就 是 确保 正确 的 格式 。 你 至 少 需 要 做 到 三 件 事 : 行 数据 需要 一 个 独立 的 id、 
矩形 尺寸 的 衡量 依据 、 以 及 数据 所 属 的 父 类 别 。 你 也 可 以 用 第 四 个 度量 标准 来 给 矩形 者 色 。 第 2 
草 介 绍 了 如 何 为 数据 定义 必要 的 格式 。 


5.3 市 时 间 属 性 的 比例 


我 们 也 经 常会 过 到 市 有 时 间 属 性 的 比例 。 在 一 次 民意 调查 中 ， 每 个 问题 都 会 有 多 个 答案 呈 
不 同比 例 ， 而 同样 的 民意 调查 有 可 能 在 一 年 中 的 每 一 个 月 都 会 举行 。 我 们 不 仅 关 心 单 次 调查 的 
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结果 ， 还 希望 看 到 大 众 的 观点 会 如 何 随 着 时 间 而 变化 。 一 年 前 的 调查 结果 和 今天 相 比 存在 哪些 
异 ? 
当然 ,并 不 仅仅 是 民意 调查 会 出 现 这 种 情况 。 各 种 比例 分 配 都 会 随 着 时 间 而 变化 。 在 下 面 的 
例子 中 , 我 们 来 看 看 1860 一 2005 年 间 美 国人 年 龄 结构 的 分 布 变化 。 随 着 卫 牛 条 件 的 改善 和 家 庭 平 
均 人 口 的 减少 ， 整 体 的 人 口 寿 命 与 之 前 一 代 相 比 已 经 有 了 显著 的 提高 。 


5.3.1 堆 倒 的 延续 


假设 你 有 多 个 时 间 序 列 图 表 ,， 现 在 将 它们 从 下 往 上 堆 二 ,， 填 满 空白 的 区 域 。 你 得 到 的 就 是 一 
个 堆 县 面积 图 ， 水 平 轴 表 示 时 间 ， 垂 直 轴 的 范围 为 0 ~ 100%， 如 图 5-20 所 示 。 





数值 轴 

通过 从 0 开始 的 数值 ， 
标识 出 图 表 的 刻度 。 ，  ， 堆 丰 总 高 度 
通常 标准 化 为 比例 表现 指定 时 


生 


:内 部 堆 秋 高 度 


: 表现 指定 时 间 内 某 
的 内 < ， 一 个 类 别 的 数值 


表现 连续 的 月 份 





图 5-20” 堆 秋 面积 图 的 基本 框架 


如 采 对 这 个 面积 图 表 进 行 垂 直 切 片 ， 就 会 得 到 该 时 间 卢 段 上 的 比例 分 布 情况 。 或 者 你 也 可 以 
把 它 看 作 是 按时 间 相 连 的 一 系列 堆积 柱 形 图 。 

1. 创建 堆 又 面积 图 

本 例 中 我 们 来 看 看 人 口 的 年 龄 结构 。 访问 http://book.flowingdata.com/ch05/data/us-popula-tion- 
by-age.xls 下 载 数据 。 在 过 去 数 十 年 中 ,医药 和 卫生 保健 都 有 了 极 大 改善 ， 人口 的 平均 寿命 持续 提 
高 ， 其 结果 是 ， 中 老年 年 龄 段 的 人 口 比例 出 现 了 显著 的 上 升 。 这 些 年 里 年 龄 分 布 到 底 发 生 了 多 大 
的 改变 ?来 日 美国 人 口 统计 局 的 数据 可 以 帮助 你 通过 堆 共 面积 图 得 到 以 上 问题 的 答案 ,你 会 看 到 
中 老年 龄 段 的 人 口 是 如 何 增长 ， 低 年 龄 组 的 人 口 又 是 如 何 降 低 的 。 

有 多 种 方法 可 以 绘制 这 一 图 表 ， 我 们 首先 尝试 用 Illustrator。 面 积 图 工具 ( Area Graph Tool ) 
可 以 帮助 我 们 直接 生成 堆 炙 面积 图 ( 参见 图 5-21 )。 

在 新 文件 中 按 住 左 键 并 拖 动 鼠标 ,在 弹出 的 电子 表格 中 输入 数据 。 现 在 你 已 经 网 悉 载 人 数据 、 
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生成 图 表 、 有 完善 设计 这 一 整套 流程 了 了， 对 吧 ? 
在 输入 数据 之 后 ， 你 会 看 到 一 个 堆 僵 面积 图 ， 如 图 5-22 所 示 。 


ll Column Graph Toal 由 | 
| [| tacked Column Graph Tool 

测 电 BarGraph Tool 

由 人 Starke 寺 Bar Graph Tool 
| BB Line Graph Tool 


Ei: Scatter Graph Tool 
| | Fie Graph Toal 
: 加 Radar Graph Tool 








图 5-21 ”面积 图 工具 图 5-22 ”Tllustrator 中 默认 生成 的 堆 赦 面积 


图 5-22 中 的 面积 图 超出 了 100% 线 。 出 现 这 种 情况 是 因为 堆 闭 面积 图 并 没有 采用 标准 化 的 比 
例 ， 也 就 是 一 组 累加 等 于 100% 的 值 。 所 以 如 果 你 希望 每 个 时 间 段 的 比例 总 和 是 100%， 就 需要 对 
原始 数据 进行 标准 化 。 图 中 的 错误 是 我 的 责任 , 我 把 有 些 数据 输 错 了 , 不 好 意思 。 修改 过 来 之 后 ， 
你 看 到 的 应 该 是 图 $-23 中 的 样子 。 当 然 ， 你 可 能 在 第 一 次 就 正确 地 输入 了 数据 ,那么 你 就 已 经 得 
到 这 一 图 表 了 。 

不 过 还 是 要 注意 这 类 事情 , 最 好 能 在 一 开始 就 检查 出 所 有 的 笔 误 或 者 数据 条 目 中 的 问题 , 不 
然 等 到 设计 完成 之 后 再 回 过 头 来 查找 错误 将 是 非常 痛 知 的 事情 。 

















提示 在 手工 输入 数据 时 一 定 要 小 心 。 在 数据 的 格式 转换 过 程 中 ,很 多 低级 错误 都 可 能 发 生 。 


现在 基础 图 形 已 经 没 问题 了 , 让 我 们 去 掉 坐 标 轴 和 线条 。 使 用 直接 选择 工具 选中 想 要 的 元 素 。 
我 倾 问 于 去 掉 科 和 百 轴 ， 然 后 留 下 较 细 的 刻度 线 ， 以 你 持 干 疹 、 轻 马 的 感觉。 同时 在 数字 后 面 加 上 
自分 自从 号 ,这样 表意 更 加 明确 。 此 外 我 通常 都 会 把 图 形 的 边线 从 上 默认 的 苦 色 改 为 日 色 。 最 后 为 
图 形 加 入 族 浅 不 同 的 蓝 色 。 效 果 如 图 $-24 所 示 。 











图 $-23 ”修改 后 的 面积 图 5-24 ”修改 后 的 颜色 
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再 次 重申 ,这 只 是 我 的 设计 品位 ， 你 可 以 按 上 自己 的 辟 好 进行 调整 。 颜 色 的 选择 同样 也 会 受到 
图 表 主 题 的 影响 。 你 说 计 的 图 表 越 多 ， 这 方面 的 感觉 就 会 越 好 。 


提示 使 用 适合 于 主题 的 颜色 ， 同 时 通过 不 同 的 色调 来 引导 读者 的 视线 。 


是 不 是 还 少 了 点 东西 ? 咽 , 水 平 轴 上 还 没有 标签 。 现 在 加 上 它们 ,并 为 各 个 面积 区 域 浴 加 标 
签 ， 指 明 各 个 年 龄 段 (参见 图 5-25 )。 


自 1860 年 以 
来 的 变化 
T59707 (个 百分点 ) 


+14.2 


100%- = 


30% — 国 


60% — 
40% — 
20% 一 


0% 
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图 5-25 ”添加 标签 后 的 堆 释 面积 
我 在 图 表 的 右 侧 也 添加 了 注释 。 我 们 最 感 兴趣 的 是 年 龄 段 的 变化 , 虽然 可 以 从 图 表 中 了 解 到 
变化 的 趋势 ， 但 实际 的 数字 更 能 说 明 问 题 。 
最 后 ， 添 加 标题 、 文 字 说 明 ， 并 在 底部 注 明 数据 来 源 。 稍 微调 整 右 侧 广 释 的 颜色 ， 赋 了 予 更 多 
的 含义 。 现 在 我 们 得 到 了 最 终 的 图 形 ， 如 图 5-26 所 示 。 





人 口 老 龄 化 
揣 俩 计 ，1869 年 关 国 大 口中 下 有 13.1% 在 45 活 以上。 
而 到 了 2005 年 ， 这 一 合计 值 已 上 升 全 23.9%% 自 1860 年 以 
100% 一 
45 一 64 风 65 岁 及 以 上 


80% 一 
60% 一 
40% 一 


20% — | 


0% 


1860 1880 1900 1920 1940 1960 1980 2000 2005 


Source; U.S. Census 





图 5-26 ”最终 的 堆 释 面积 图 
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2. 创建 可 交互 式 堆 芭 面积 图 

堆 准 面积 图 的 缺点 之 一 是 当 类 别 和 数据 点 过 多 时 ， 它 们 就 会 很 难 阅 读 ， 体 现 不 出 多 少 价 
值 。 在 年 龄 段 划 分 中 这 一 图 表 类 型 很 有 效 ， 是 因为 只 有 5 个 类 别 。 如 果 类 别 继续 增多 ,各 层 就 
会 逐渐 被 压缩 成 细 条 。 类 似 地 ， 如 采 某 个 类 别 所 占 的 数值 比较 小 ,那么 它 就 很 容易 会 被 其 他 
更 加 “粗壮 ”的 类 别 挤 得 无 处 容 里 。 不 过 ， 如 果 堆 著 面 积 图 是 可 交互 的 ， 这 一 问题 就 不 存 
在 了 。 

通过 交互 ,读者 可 以 目 由 搜索 各 类 别 , 而 且 针 对 感 兴趣 的 点 可 以 缩放 坐标 轴 进 行 细致 的 观察 。 
文本 提示 可 以 帮助 谈 考 查看 那些 面积 过 小 、 无 法 放置 标签 的 层 的 具体 数值 。 简 而 言 之 ,你 可 以 将 
那些 不 适 于 静态 堆 琶 面积 图 的 数据 应 用 于 可 交互 式 图 表 , 从 而 便于 读者 浏览 及 探索 。 我 们 可 以 通 
过 Protovis 用 JavaScript 来 实现 ,不 过 出 于 了 解 更 多 工具 的 目的 (因为 这 一 过 程 确实 很 有 乐趣 )， 这 
次 让 我 们 试 一 下 Flash 和 ActionScript。 























> Martin Wattenbere 的 NameVoyager 让 可 交互 式 堆 营 面 积 图 广 这 欢迎 。 它 会 显示 各 时 期 婴儿 
的 起 名 趋势 ,而且 当 你 在 搜索 框 内 输入 姓名 后 ,图 表 会 自动 刷新 ,。 访问 http://www.babyname- 





wizard.com/Voyager 进 行 体 验 。 


说 明 在 线 可 视 化 目前 已 经 开始 从 Flash 向 JavaScript 和 HTMLS 缓 慢 迁 移 , 但 并 不 是 所 有 的 浏览 
器 都 支持 后 者 ， 比 如 说 较 早 版 本 的 Internet Explorer 就 不 支持 。 此 外 ， 由 于 Flash 已 经 流 
行 很 多 年 了 ， 相 比 使 用 原生 的 浏览 器 功能 ，Flash 的 大 量 元 件 库 和 工具 包 能 使 任务 变 得 
更 简单 。 


对 和 运 的 是 , 你 不 必 一 切 都 从 去 开始 。 通 过 由 加 州 大 学 们 克利 分 校 可 视 化 实验 室 开 发 并 维护 的 
Flare 可 视 化 工具 包 ， 绝 大 部 分 工作 都 已 经 为 你 完成 了 。Flare 是 一 个 ActionScript 库 ， 实 际 上 是 一 
个 名 为 Prefuse 的 Java 可 视 化 工具 包 的 移植 版 本 。 我 们 会 先 看 一 下 Flare 网 站 上 的 一 个 应 用 采 例 
JobVoyager， 它 和 NameVoyagert 非 常 类 似 ， 但 探索 的 是 人 们 从 事 的 职业 。 在 你 搭建 好 开发 环境 之 
后 ,和 璋 下 的 就 只 是 接 入 你 目 己 的 数据 以 及 定制 外 观 了 。 


说 明 访问 http:/flare.prefuse.org/ 免 费 下 载 Flare， 并 解压 到 目标 目录 中 。 


你 可 以 用 ActionScript 编 写 完整 的 代码 ， 然 后 编译 进 Flash 文 件 中 。 这 香味 大 你 先 用 自己 理解 
的 语言 编写 代码 , 然后 通过 编译 天 将 代码 翻译 成 计算 机 ( 或 者 说 Flash 播 放 带 ) 能 明日 的 比特 编码 ， 
这 样 它 才能 服从 你 的 命令 。 所 以 你 需要 两 个 东西 : 写 代 人 码 的 地 方 ， 以 及 编译 的 途径 。 

比较 麻烦 的 做 法 是 用 某 个 标准 文本 编辑 从 来 写 代码 ， 然 后 利用 Adobe 的 免费 编译 帮 。 我 说 它 
麻烦 是 因为 其 过 程 比较 迁 回 ， 而 且 你 必须 先 在 计算 机 上 安装 很 多 东西 。 
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比 之 更 为 商 单 、 我 易 力 推荐 的 做 法 是 ， 如 条 你 有 不 少 项 目 都 打算 用 到 Flash 和 ActionScript， 
那么 就 使 用 Adobe 的 Flex Builder。 它 能 把 ActionScript 编 程 中 沉 浆 的 部 分 加 快 解决 , 因为 你 写 代 人 码 、 
编译 和 调试 都 在 同一 个 地 方 。 不 过 Flex Builder 需 要 花 钱 购 洋 (对 学 生 是 免费 的 )。 如 有 果 你 不 确定 
是 否 值 得 花 钱 , 也 可 以 先 下 载 免 费 试用 版 本 , 之 后 再 作 决 定 。 对 于 我 们 这 个 堆 蔡 面积 图 实例 而 言 ， 
下 面 将 会 解释 在 Flex Builder 中 的 操作 流程 。 











说 明 在 本 书写 作 时 ，Adobe 已 经 将 Flex Builder 改 名 为 Flash Builder。 这 两 者 很 相似 ， 但 也 存在 
少许 变化 。 以 下 步骤 中 虽然 使 用 的 是 前 者 , 但 使 用 后 者 也 是 一 样 的 操作 "访问 http://www. 
adobe.com/products/flashbuilder/ 下 载 Flash Builder。 确 保 能 充分 利用 面向 学 生 的 折扣 。 只 需 
提供 你 的 学 生 证 复印 件 ， 就 能 得 到 免费 下 载 许可 。 或 者 你 也 可 以 找 稍 旧 的 Flex Builder 版 
本 ， 价 格 稍 低 。 


当 你 下 载 并 安 猴 了 了 Flex Builder 之 后 ， 运 行 它 ， 会 看 到 一 个 窗口 ， 如 图 5-27 所 示 。 


Flex Development - Adobe Flex Builder 3 


时 国 Flex Develop... >” 
et 























图 5-27 ”运行 Flex Builder 后 的 初始 界面 


在 左 侧 的 Flex Navigator( 包 资 源 管 理 右 ) 控 件 内 单 击 右键 , 在 弹出 亲 单 中 选择 Import( 导入 )。 
你 会 看 到 一 个 弹出 窗口， 如 图 5-28 所 示 。 

选择 General ( 常规 ) 下 的 Existing Projects into Workspace ( 现 有 项 目 到 工作 空间 中 ) 并 单 击 
Next (下 一 步 ) 按钮 。 在 Select root directory (选择 根 目录 ) 单 选 框 处 单 击 Browse (浏览 ) 按钮 
找到 你 存放 Flare 文 件 的 地 方 ,并 选择 Flare 目 录 , 同时 确保 在 项 目 窗 口中 的 Flare 已 被 选中 , 如 图 5$-29 
所 示 。 














QD 目前 的 Adobe Flash Builder 4.5 版 本 的 界面 已 经 和 作者 提供 的 配 图 不 太一 样 , 部 分 操作 也 有 了 变化 。 关于 操作 步骤 ， 
翻译 过 程 中 已 经 进行 了 相应 的 更 改 。 
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Select 


Create new projects from an archive file or directory. 


Select an import source: 


了 EE General 
EB Archive File 
oe Breakpoints 
曾 Existing Projects into Workspace 
入 File System 
国 , preferences 
> 车" CVS 
bp EE Flex Builder 
bp 狐 : Team 














图 5-28 ”Flex Builder 中 的 Import 窗 口 


Import Projects 


Select a directory to search for existing Eclipse projects. 





[@) Select root directory: VN/Users/Nathan/Documents/Flex Builder 3/flare Br 
人 Select archive file: 


Browse... ) 
Projects: 


flare 








器] Copy projects into workspace 








Next > 


图 5-29 “已 有 项 目 ” 窗 口 


单 击 Finish (完成 ) 按钮 。 然 后 再 重复 一 遍 刚 才 的 导入 操作 ， 这 次 选择 的 是 flare.apps 目 录 。 
在 当前 的 包 资 源 管理 需 中 展开 flare.apps/src/flare/apps/ 文 件 夹 ,并 双击 JobVoyager.as。 现在 你 的 Flex 
Builder 窗 口 应 该 类 似 于 图 $-30。 
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pS > 


j [国生] Or 大" 0 由 | 4 有 审 " 雪 人 SS， 
一 | 吨 FlexNavigator 只 
中 中 网 | 晶 名 po 
引 > 网 flare import flare.animate.Transitioner; 


v bo flareapps import flare.daota.DataSet; 
b (BS bin-debug import flare.data.DataSource:; 
import flore.dispioy.TextSprite; 
全 | 7 import flaore.query -methods .eq; 
“emplane import flare.query.methods .iff; 
Y src import flare.util.Orientation; 
7 Bflare import flare.util.Shapes; 
v Gapps import flare.util. Strings; 
annas import flare.vis.Visualization; 
| vepenidundyvd import flare.vis.controls.ClickControl; 
import flare.vis.controls.HoverControl; 
Johvoyager as import flare.vis.controls,TooltipControl; 
加 PackagcMap.as import flare.vis.data.Data; 
Sh verdana.TIF import floure.vis.dota.DutuSprite; 
» GB widgets import flare,vis,data.NodeSprite; 
import flure.vis.events, SelectionEvent; 
import flare.vis.events.TooltipEvent; 
import flare.vis.legend.Legend; 
import flaore.vis.legend.LegendItem; 
import flaore.vis.operator,filter.VicibilityFilter; 
import flare.vis.operator. lobel .StackedAreal abeler; 
import flare.vis.operator.layout.StackedAreaLayout; 
import flare.widgets.ProgressBar; 
import flare.widgets.SearchBox; 


import flash.display.Shape; 

import flash.events.Event; 

import flaosh.filters.DropShadowFilter; 
import flash.geom.Rectangle; 

import flash.net.URLLoader; 

import flush.text,TextFormat; 


[SWFCbackaroundColor="“#ffffff", frameRate="30")] 
public class JobVoyager extends App 
{ 





3 NO 人 oonDpooonoccpnn 











[EIS 





图 5-30 ”打开 后 的 JobVoyager 代 三 


如 果 你 现在 单 击 运行 按钮 ( 界面 左上 角 带 有 白色 播放 三 角形 的 绿色 按钮 )， 你 就 会 看 到 运行 
后 的 JobVoyager， 如 图 5-31 所 示 。 这 表示 你 已 经 完成 了 最 困难 的 部 分 : 安装 。 现 在 我 们 只 需要 插 
入 自己 的 数据 ， 然 后 按 自己 的 喜好 进行 调整 即 可 。 这 个 过 程 听 起 来 很 熟悉 吧 ? 








Reported Occupations - U.S. Labor Force, 1850 - 2000 (source: http:/ipums .ort 
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图 5-31 JobVoyager 应 用 〈 夯 见 彩 插图 $-31 ) 
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图 5-32 显 示 了 我 们 最 后 要 实现 的 效果 。 它 显示 了 1984 一 2008 年 间 美 国 的 消费 开支 状况 ,数据 








来 源 于 美国 人 口 统计 局 。 水 平 轴 显 示 的 依然 是 年 份 , 但 图 标 表现 的 不 是 职业 类 别 , 而 是 开支 分 类 ， 
例如 住房 (Housing ) 和 食品 (Food )。 





现在 你 需要 改变 数据 源 ， 它 在 JobVoyager.as 的 第 57 行 进行 了 指定 。 

private var _url:String = "http://flare.prefuse.org/data/jobs.txt": 

把 _ur1 改 为 指 癌 我 们 提供 开支 数据 的 地 址 http://datasets.flowingdata.com/expenditures.txt 。 和 
jobs .txt 一 样 ， 这 一 数据 也 是 以 制 表 和 从 分 隔 的 文件 。 第 一 列 是 年 份 ， 第 二 列 是 类 别 ， 最 后 一 列 
是 消费 额度 。 

private var _url:String = 

"http:i//datasets.f lowingdata.com/expenditures.txt"; 





Search: 


Cash Continbutions 
90% 


Miscellaneous 


1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 








图 5-32 ”有关 消费 开 文 的 可 交互 式 堆 蕉 面积 图 ( 为 见 彩 插图 5-32 ) 
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现在 文件 将 谈 取 我 们 的 消费 开 文 数据 ， 而 不 再 是 职业 方面 的 数据 了 。 到 目前 为 止 都 还 比较 
简单 。 

下 面 的 第 58 和 59 两 行 是 第 一 列 的 数据 ,在 本 例 中 也 就 是 原始 数据 文件 (jobs.fxt ) 中 列 出 的 不 
同年 份 , 是 从 1850 年 到 2000 年 、 以 10 年 为 单位 进行 的 划分 。 你 可 以 编号 代码 让 程序 目 动 在 载 入 的 
开支 数据 中 找到 年 份 , 不 过 由 于 这 一 数据 不 会 变化 , 所 以 我 们 也 可 以 节省 点 时 间 ， 和 直接 明确 指定 
数据 的 各 个 年 份 即 可 。 

开 文 数据 是 从 1984 年 到 2008 年 、 以 年 为 单位 进行 划分 的 , 所 以 我 们 把 第 58 和 59 两 行进 行 相应 
的 修改 。 

private var _cols:Array = 

[1984,1985,]1986,1987,1988,1989,1990,]991,1992, 


1993,1994,1995,1996,1997,1998,1999,2000,2001,2002, 
2003,2004,2005,2006,2007,2008]; 


下 一 步 修改 涉及 数据 的 标 头 。 原 始 的 数据 文件 〈jobs.txt ) 共有 4 列 : 年 份 ( year )、 职 ， 
(occupation )、 人 数 ( people ) 和 性 别 ( sex )。 开 文 数据 中 只 有 3 列 : 年 份 (year )、 开 文 类 别 ( category ) 
和 消费 额度 ( expenditure )。 你 需要 让 代码 适应 新 的 数据 结构 。 

羊 运 的 是 ,这 很 容易 。 年 份 列 和 之 前 是 一 样 的 ， 你 只 需要 把 人 数 改变 为 消费 额度 〈( 对 应 对 下 
轴 )、 把 职业 改变 为 类 别 ( 对 应 各 层 ) 即 可 。 最 后 ， 把 所 有 用 到 性 别 的 地 方 都 删除 。 

第 74 行 的 作用 是 重 塑 数据 , 以 便 呈 现 堆 琶 面 积 图 的 形式 。 它 将 职业 、 性 别 两 者 指定 为 类 别 ( 也 
就 是 说 ， 有 职业 和 人 性别 两 种 层 )， 然 后 在 x 轴 调 用 年 份 ， 在 y 轴 调用 人 数 。 

var dr:iArray = reshapetds.nodes.data, ["occupation'","sex'"], 

"year", "people"”, _cols); 


把 代码 改 成 这 样 : 
var dr:Array = reshapekds.nodes.data，[ category "] ， 
‘year", "expenditure", _cols); 

在 我 们 的 数据 中 ， 只 会 用 到 一 个 类 别 ( 没有 性 别 层 )， 也 就 是 开支 类 别 ( category )。x 轴 依旧 
显示 年 份 ， 而 y 轴 是 消费 额度 。 

第 84 行 将 数据 按照 职业 ( 按 首 字 母 顺序 ) 和 性 别 ( 以 数字 表现 ) 排序 。 现 在 我 们 只 需要 按照 
开 文 类 别 排序 : 

data.nodes.soDrtByf data.category ); 

你 现在 是 否 有 点 概念 了 ? 基本 上 所 有 代码 都 已 经 呈现 在 你 眼前 , 你 只 需 调整 一 些 变 量 以 适应 
新 的 数据 即 可 。 




















提示 “可视化 领域 中 有 很 多 优秀 的 开源 项 目 。 虽 然 现 在 你 仍 对 编写 代码 “ 谈 虎 色 变 ”， 但 在 很 多 
情况 下 可 以 借用 这 些 项 目 中 已 有 的 代码 来 表现 你 自己 的 数据 ， 你 的 工作 只 是 调整 一 些 变 
量 而 已 。 挑 战 在 于 读 懂 代码 ， 理 解 它们 是 如 何 运 作 的 。 
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第 92 行 的 作用 是 通过 性 别 对 各 层 进行 着 色 , 但 我 们 并 未 通过 性 别 来 分 割 数据 ， 所 以 不 需要 这 
样 做 。 删 除 整 行 代码 : 

data.nodes.setProperty(t"fillHue"”, 1ff(eq('"data.,sex'",]), 0.7, 0)): 

稍 后 我 们 会 回头 绸 调整 各 层 的 颜色 。 

第 103 行 的 作用 是 根据 职业 为 各 层 添加 标签 : 

Vis.operators.add(new StackedAreaLabelert'"data.occupation")): 

我 们 硕 望 的 是 根据 开 文 类 别 来 添加 标签 ， 所 以 进行 相应 改动 : 

_vis.operators.add(new StackedArealLabeler('"'data.category')); 

第 213 ~ 231 行 处 理 JobVoyager 的 过 滤 。 首 和 完 设置 的 是 男性 /女性 的 过 滤 ， 然 后 是 职业 的 过 滤 。 
我 们 不 需要 前 者 ， 所 以 可 以 删除 第 215 ~ 218 行 ， 然 后 使 第 219 行 成 为 一 个 简单 的 if 语 句 。 

与 之 类 似 , 第 260 ~ 289 行 (也 就 是 删除 if 条 件 之 前 的 第 264 ~ 293 行 ) 创建 了 按钮 来 触发 男性 / 
女性 的 过 小 。 我 们 也 可 以 删除 它们 。 

现在 我 们 基本 上 快 把 职业 数据 全 部 改 为 目 己 的 开支 数据 了 。 回 到 第 213 行 的 fi1ter( 〇 孙 数 。 
像 之 前 一 样 更 新 该 函数 ， 以 按 开 文 类 别 而 不 是 职业 过 滤 。 

现在 的 第 218 行 (也 就 是 删除 if 条 件 之 前 的 第 222 行 ) 是 这 样 : 


var s:String = Stringtd.datal"'occupation"]).toLowercase(); 























把 occupation 改 为 category: 


var s:String = String(d.datal category"]).tol owerCasel); 

下 一 个 需要 调整 的 是 颜色 。 如 采 你 现在 开始 编译 代码 并 运行 ,就 会 得 到 一 个 红色 系 的 堆 共 面 
积 图 ， 如 图 5-33 所 示 。 而 我 们 需要 让 对 比 青 增强 一 点 。 

颜色 在 两 个 地 方 指定 。 第 86 ~ 89 行 指定 了 边框 颜色 ， 并 且 对 所 有 元 素 都 使 用 了 红色 : 

shape: Shapes.POLYGON, 

lineColor: 0, 


fillVYalue: 1, 
fillsaturation: 0.5 


之 后 在 第 105 行 通过 计数 更 新 了 色彩 的 饱和 度 ( 红色 的 级 别 )。 其 中 SaturationEncoder 0) 
的 代码 在 第 360 ~ 383 行 。 我 们 并 不 打算 用 不 同 的 饱和 度 来 区 分 各 层 , 而 是 明确 指定 各 层 的 闫 色 值 。 

首先 ， 按 以 下 代码 更 新 第 86 ~ 89 行 : 

shape: Shapes.POLYGON, 

lineColor: OxFFFFFFFF 


现在 1ineColor 已 经 指定 了 边框 色 为 日 色 。 如 东 开 文 的 类 别 比 较 多 ， 可 能 不 应 该 这 样 做 ， 
为 那样 会 显得 比较 杂乱 。 现 在 类 别 并 不 多 ， 所 以 用 日 色 边 框 可 以 提高 图 表 的 多 谈 性 。 

下 一 步 , 建立 一 个 颜色 的 数组 , 这 些 颜色 是 根据 级 别 进行 排序 的 。 在 第 50 行 前 加 入 以 下 代码 : 

private var reds:Array = [OxFFFEFODS, OQxFFFDDA4A9E, OQxFFFDBB84, OxFFFC8DSY, 

OxFFE34A33, 0xFFB30000]; 
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图 5-33 ”基础 色调 的 堆 车 面积 图 ( 男 见 彩 插图 5-33 ) 


我 是 用 ColorBrewer ( 之 前 提 到 过 ) 来 找到 这 些 颜色 的 ， 该 工具 能 根据 我 设置 的 条 件 提 供用 
色 建 议 。 它 本 身 是 用 于 地 图 选 色 的 ， 但 对 于 一 般 的 可 视 化 也 很 适用 。 
现在 在 第 110 行 添加 一 个 新 的 ColorEncoder: 


var ColorPalette:ColorPalette = new ColorPalettet reds): 
vis.operators.addtnew ColorEncodert"data.max", ‘nodes'", 
"fillcoloer'", null, colorPalette)): 


说 明 如 果 在 编译 代码 时 出 现 错误 , 看 看 JobVoyager.as 文 件 的 前 面部 分 是 否 指 定 了 以 下 两 行 用 于 
导入 ColorPallete 和 和 Encoder 对象 的 代码 。 如 果 没 有 的 话 ， 添 加 进去 。 
import "are.util.palette.*; 


1mport "are.vis.operator.encoder.*; 


啊 哈 ! 现在 再 运行 应 该 就 能 得 到 我 们 想 要 的 效果 了 (参见 图 5-32 )。 当然 ， 你 不 必 止 步 于 此 ， 
还 有 很 多 事情 可 以 做 。 你 可 以 接 人 目 己 的 数据 ,改变 配色 方案 ， 或 者 进一步 定制 来 满足 目 己 的 需 
求 , 比 如 改变 字体 或 文本 提示 的 格式 .甚至 你 还 可 以 和 其 他 工具 整合 ,或 者 加 入 更 多 的 ActionScript 
代码 等 。 
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5.3.2 逐 点 评述 


堆 苹 面积 图 也 存在 缺点 ， 比 如 每 一 个 层 的 变化 趋势 可 能 会 难以 识别 , 因为 每 一 个 数据 点 的 位 
置 都 受到 了 它 下 方 点 的 影响 。 所 以 有 时 候 用 直接 的 时 间 序 列 图 来 表现 分 布 反 而 会 更 直观 一 些 。 

对 和 运 的 是 , 在 Ilustrator 中 这 两 者 很 容易 转换 。 数 据 的 输入 方法 是 一 样 的 ,所 以 你 只 需 改 变 图 
表 类 型 即 可 。 在 人 口 年 龄 结构 的 问题 中 ， 如果 一 开始 选择 折线 图 工具 而 非 面 积 图 工具 ,你 就 会 得 
到 如 图 5-34 所 示 的 默认 图 表 。 























图 5-34 ”默认 的 折线 图 
按 之 前 的 方法 ,根据 上 自己 的 喜好 对 图 表 和 格式 进行 调整 、 人 简化 ， 这 样 针 对 同一 数据 我 们 就 有 
了 男 一 种 视角 (参见 图 5-35 )。 





人 口 老龄 化 
据 估 计 ，1860 年 关 国 人 口中 只 有 13.1% 在 43 岁 以 上。 
而 到 了 2005 年 这 一 个 计 信 上 于 至 23.9%%66 
40% 
20 一 44 岁 
5 一 19 岁 


5 岁 以 下 


45 一 604 少 
65 岁 及 以 上 


0% 


1860 1880 1900 1920 1940 1960 1980 2000 


Source: U.S. Census 





图 5-35 ”简化 并 添加 标记 后 的 折线 图 
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有 了 这 个 时 间 序 列 图 表 , 更 容易 看 出 每 一 个 年 龄 段 各 目的 变化 趋势 。 但是， 图表 开 失 了 整体 
感 ,也 没有 体现 出 其 中 的 比例 分 布 状况 。 选 择 何 种 图 表 应 该 反映 出 你 希望 表达 的 重点 是 什么 。 如 
末 页 面 上 有 足够 的 空间 ， 你 甚至 也 可 以 把 两 种 图 都 放 上 去 。 





5.4 小结 


比例 分 布 数据 和 其 他 数据 类 型 的 主要 区 别 在 于 它们 体现 的 是 整体 中 的 各 个 部 分 。 每 一 个 单独 
的 数值 都 有 其 意义 ,而 各 部 分 相 加 得 到 的 子 集 或 者 总 和 也 是 如 此 。 我 们 的 可 视 化 成 果 应 该 体现 出 
这 些 方面 。 

如 条 数 据 并 不 多 ,那么 饼 图 可 能 最 适合 你 。 当 然 也 可 以 用 面包 圈 图 ,不 过 要 稍 加 小 心 。 如 采 
有 多 个 类 别 的 多 个 数值 ,可 以 考虑 堆 车 柱 形 图 ， 而 韭 多 个 饼 图 。 如 果 你 想 探索 其 中 随时 间 而 变化 
的 模式 ， 则 可 以 使 用 堆 苹 面积 图 ,或 者 用 传统 的 时 间 序 列 图 。 有 了 这 些 作 为 基础 ,你 的 比例 图 一 
定 会 出 类 拔 茶 。 

在 设计 和 实施 阶段 ， 先 自问 你 希望 从 数据 中 得 到 什么 信息 ,然后 以 此 为 起 点 。 依 徘 静 态 图 表 
是 否 能 把 故事 讲述 完整 ? 很 多 时 候 答 案 都 会 是 “能 ”， 这 很 好 。 但 如 果 你 决定 要 用 可 交互 网 表 ， 
那么 请 现在 纸 上 拟 定 出 各 种 交互 行为 ， 比 如 在 单 击 对 象 时 应 该 发 生 什 么 、 不 应 该 发 生 什 么 。 如 采 
你 往 界面 中 强 塞 太 多 功能 , 很 快 就 会 变 得 难以 掌控 。 所 以 请 尽量 保持 简单 。 找 人 来 试 着 体验 一 下 ， 
看 看 他 们 是 否 能 理解 界面 的 操作 。 

最 后 , 在 代码 阶段 ， 你 很 可 能 会 遇 到 下 一 步 不 知 该 怎么 办 的 窗 境 ， 对 于 编程 新 手 来 说 尤其 如 
此 。 我 目 己 也 总 是 磁 到 这 种 情况 。 当 你 卡 壳 时 ， 互 联网 是 最 好 的 求助 之 所 。 找 一 下 是 否 有 合适 的 
说 明文 档 ， 或 者 与 你 手中 项 目 相似 的 研究 案例 。 不 要 只 关注 于 语法 ， 要 学 习 其 中 的 逻辑 思路 ， 这 
才 是 最 能 帮助 你 的 。 很 第 运 ， 像 Protovis 和 Flare 这 些 困 数 库 都 有 很 多 实例 ， 也 提供 了 优秀 的 说 明 
文档 。 

在 下 一 草 中 ,我 们 将 继续 深入 分 析 、 演 绎 数据 ， 同 时 拉 上 我 们 的 好 朋友 统计 和 学。 在 人 研究 数据 
集 与 变量 之 间 的 关系 时 ，R 会 继续 提供 很 多 帮助 。 准 备 好 了 吗 ? 让 我 们 开始 吧 。 
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统计 学 就 是 要 寻找 数据 之 间 的 关系 。 两 个 群体 彼此 之 间 存 在 哪些 共同 
点 ? 群体 内 部 的 子 群 体 之 间 有 哪些 共同 点 ? 子 群 体内 部 的 个 体 之 间 又 有 
哪些 共同 点 ? 对 于 统计 来 说 , 人 们 最 熟悉 的 关系 就 是 关联 性 ( correlation )。 
比方 说 ， 如 果 全 民 的 平均 身高 增高 了 ， 那 么 平均 体重 自然 也 会 随 之 增长 。 
这 是 一 种 简单 的 、 成 正比 的 关联 性 。 然 而 就 和 现实 生活 中 一 样 ， 一 旦 我 们 
开始 考虑 更 多 因素 , 或 者 试图 寻找 非 线性 的 模式 , 那么 数据 间 的 关系 就 会 
变 得 更 加 复杂 。 本草 讨论 的 是 如 何 利 用 可 视 化 的 方法 挖 据 出 并 强调 这 些 关 
系 ， 从 而 讲 出 好 故事 。 

在 本 章 和 下 一 章 中 ,我 们 开始 处 理 更 加 复杂 的 统计 图 表 。 你 会 发 现 R 
能 带 来 极 大 的 帮助 ,而 这 些 地 方正 是 这 一 开源 软件 的 强大 之 处 。 和 和 之 前 一 
样 ，R 包 搞 了 最 基础 、 最 繁重 的 工作 ， 而 Illustrator 则 能 让 生成 的 图 表 更 加 


易 读 。 
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6.1 在 关系 中 寻求 什么 


到 目前 为 止 , 我 们 已 经 了 解 了 有 关 时 间 和 比例 的 一 些 基础 数据 关系 。 我 们 可 以 午 握 对 象 随时 
间 变 化 的 趋势 ， 或 者 比较 对 象 中 包含 的 各 个 部 分 或 百分比 ,从 而 了 解 其 中 最 大 、 最 小 和 夹 在 中 间 
的 各 个 部 分 。 接 下 来 我 们 将 探求 不 同 变 量 间 的 关系 。 当 茶 个 数量 增加 时 , 妃 一 个 数量 是 否 会 减少 ? 
它们 之 间 是 因 采 关系 还 是 关联 天 系 ?” 通 津 来 说 , 前 者 很 难 通 过 数量 进行 证 实 , 因此 也 难以 用 图 表 
描述 。 但 是 关联 性 是 很 容易 表现 的 ， 而 它 也 能 引导 我 们 进行 更 加 深入 的 探究 和 分 析 。 

你 也 可 以 后 退 一 步 ， 从 整体 上 进行 观察 ， 或 者 措 清 数据 的 分 布 。 和 群体 彼 此 之 间 是 存在 交 又 还 
是 互 不 干涉 ?这 种 比较 可 以 用 来 讲述 有 关 一 国 国 民 的 故事 , 也 可 以 用 来 描述 我 们 号 边 的 人 。 我 们 
可 以 了 解 不 同 国家 之 间 的 差异 , 或 者 世界 发 展 的 总 体 趋 势 , 从 而 有 利于 制定 人 道 援助 或 其 他 方面 
的 决 宋 。 

你 也 可 以 从 更 宽 谤 的 角度 来 比较 各 个 分 布 数据 。 有 茶 个 族群 的 组 成 是 如 何 随时 间 发 生变 化 的 ? 
或 者 它 是 如 何 保持 不 变 的 ? 

最 重要 的 是 ， 当 图 表 最 终 都 展现 在 你 的 眼前 时 ,请 目 问 这 些 结 朱 的 意义 何在 。 它 们 是 否 在 你 
的 意料 之 中 ?有 没有 什么 结果 让 你 感到 慰 讶 ? 

这 看 起 来 似乎 帆 为 临 汐 抽 象 , 所 以 让 我 们 直接 通过 具体 实例 来 看 看 究竟 应 该 如 何 观 察 数据 之 
间 的 关系 。 


6.2 天 联 性 


一 想到 数据 的 关系 ， 人 们 的 脑子 里 最 先 踢 出 的 概念 可 能 就 是 关联 性 ,之 后 便 是 因果 关系 。 此 
刻 你 可 能 正在 琢磨 关联 性 和 因 采 关系 到 抵 有 什么 差别 。 关 联 性 意味 着 当 一 件 事 情 变 化 时 , 另 一 件 
事情 也 可 能 会 发 生 某 种 变化 。 比 如 资 ， 每 加 仑 牛奶 的 价格 和 每 加 仑 汽油 的 价格 就 是 正 相 关 的 
( positively correlated )。 它 们 都 在 逐 午 上 升 。 

下 面 是 关联 性 和 因 末 关系 之 间 的 区 别 。 如 采 你 提升 了 汽油 价格 ， 牛 奶 价格 是 否 会 自动 上 升 
呢 ? 更 重要 的 是 , 如 采 牛 奶 的 价格 确实 上 升 了 , 真 的 是 汽油 价格 提升 引起 的 吗 ? 还 是 有 其 他 外 在 
因 系 ， 例 如 乳 制品 业 突 发 的 罢工 行为 ? 

解释 所 有 外 在 的 、 混 好 的 因素 无 疑 非 党 困难 ， 因 此 证 实 因 末 关系 也 并 非 兄 事 。 人 研究 人 员 可 能 
要 花费 数 年 的 时 间 来 弄 清楚 这 些 事情 , 但 是 我 们 可 以 轻易 地 发 现 事物 间 的 关联 , 而 它 也 一 样 很 有 
价 伍 。 以 下 各 将 会 帮助 大 家 理解 这 一 点 。 

关联 性 可 以 帮助 我 们 根据 某 一 已 知 指标 来 预测 另 一 指标 。 要 想 探 究 这 种 关系 ,让 我 们 看 看 散 
点 图 和 多 重 散 点 图 。 


6.2.1 更 多 的 圆 点 


在 第 4 草 中 ， 我 们 甸 用 散 扣 图 来 表示 随时 间 而 变化 的 指标 : 时 间 由 水 平 轴 表 示 ， 数 值 或 量度 
则 在 垂下 轴 上 表现 。 它 有 利于 我 们 辨识 出 随时 间 发 生 的 变化 (或 者 不 变化 )。 这 种 图 表 体 现 的 是 
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时 间 和 男 一 因 系 或 变量 之 间 的 关系 。 其 实 ， 散 点 图 不 仅 可 以 应 用 于 时 间 , 还 可 以 表现 两 个 变量 之 
间 的 关系 ， 如 图 6-1 所 示 。 


| 每 个 点 都 有 对 应 x 
JY 多 4 E 
通常 不 是 独立 的 。 


轴 和 y 轴 的 坐标 。 


表现 某 一 个 变量 的 数值 





图 6-1 散 点 图 的 基本 框架 ， 比 较 两 个 变量 


如 有 果 两 个 指标 是 正 相 关 的 ( 参见 图 6-2 左 图 ), 那么 从 左 往 右 读 图 表 时 ， 点 的 位 置 就 会 越 来 越 
局。 相反， 如 末 是 负 相 关 ， 那 么 点 的 位 置 就 会 从 左 往 右 越 来 越 低 ， 如 图 6-2 中 图 所 示 。 





正 相 关 负 相 关 不 相关 
各 国 点 按 右 各 疝 点 按 石 辐 点 的 排列 没 
F 方 同 排 证 下 方向 排列 有 明 岂 模式 


4 4 





图 6-2” 散 点 图 中 显示 的 关联 性 








有 了 时候 数据 之 间 的 关系 非常 直接 , 例如 人 的 身高 和 体重 之 间 的 关联 性 。 通常, 一 个 人 的 身高 
增加 后 体重 也 会 随 之 增加 。 还 有 些 时 候 关 联 性 并 没有 那么 明显 , 比如 健康 和 体质 指数 ( Body Mass 
Index，BMI ) 之 间 的 关系 。BMI 过 高 通常 意味 着 某 人 超重 了 , 但 肌肉 发 达 的 人 ( 比如 运动 员 ) 也 
会 有 很 高 的 BMI。 如 果 抽 样 群体 是 健美 运动 员 或 者 微 懂 球 员 又 会 是 什么 情况 ?健康 和 BMI 之 间 有 
什么 关系 ? 

请 记 住 图 表 只 是 整个 故事 的 一 部 分 而 已 。 对 故事 结果 的 解读 仍然 取决 于 人 。 而 这 对 于 关系 来 
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说 非常 重要 。 也 许 你 会 答 试 表现 出 数据 间 的 因 末 关系 ,但 大 多 数 情 况 下 它们 都 并 不 准确 。 汽 油价 
格 和 世界 人 口 都 在 逐年 增长 ， 但 这 并 不 意味 春 降 低 汽 油价 格 ， 人 口 增 长 就 会 减缓 。 

创建 散 点 

在 本 例 中 , 我 们 看 一 下 2005 年 美国 各 州 的 犯罪 率 ， 即 美 国人 口 统计 局 公布 的 每 10 万 人 口中 谋 
杀 、 抢 动 和 故意 伤害 等 罪案 的 发 生 率 。 总 共有 7 种 犯罪 类 型 ， 让 我 们 先 来 了 解 其 中 的 两 种 : 入 室 
资 案 和 谋杀 。 这 两 者 之 间 是 否 存 在 联系 ?是 否 在 谋杀 率 相 对 较 高 的 州 ， 和 人 室 资 甸 也 发 生得 较 多 ? 
让 我 们 用 R 来 进行 调查 。 

和 之 前 一 样 ， 第 一 件 事 就 是 在 R 中 利用 read.csv0O) 来 载 入 数据 。 你 可 以 访问 http:/datasets. 
flowingdata.comy/crimeRatesByState200$.csv 下 和 载 CSV 文 件 ， 不 过 这 里 我 们 直接 通过 URL 该 取 。 























# 输入 数据 
crime <- 
read.csvC http:Ardatasets,fl1owingdata,comAcrimeRatesByState2005.C5SV ， 
sep=",", header=TRUE) 
现在 检查 一 下 头 几 行 数 据 ， 输 入 变量 crime， 之 后 设置 你 希望 看 到 的 行 数 。 
crime[l:3,] 


以 下 是 R 返 回 的 前 几 行 数据 。 


state murder forcible rape robbery aggravated assault burglary 


] United States 5.6 31.7 140.7 291.1 726.7 

2 Alabama 8.2 34.3 -141.4 247.8 953.8 

3 Alaska 4.8 81.1 80.9 465.1 622.5 
larceny theft motor vehicle theft population 

1 2286.3 416.7 295753151 

2 2650.0 288.3 4545049 

3 2599.1 391.0 669488 


第 一 列 显示 的 是 州 名 ,其 他 列 是 各 种 类 型 犯罪 的 发 生 率 。 比 如 说 ，2005 年 美国 全 国 的 平均 抢 
动 案 发 生 率 是 每 10 万 人 口中 发 生 140.7 起 。 我 们 用 p1otO 来 为 谋杀 和 入 室 盗 穷 两 个 数据 创建 默认 
的 散 点 图 ， 绪 采 如 图 6-3 所 示 。 

plot(crime$murder, crime$burglary) 

看 上 去 这 两 个 数据 似乎 是 正 相 关 的 : 谋杀 率 相对 较 高 的 州 ， 其 入 室 资 镭 率 也 相对 较 高 。 但 由 
于 有 一 个 点 出 现在 很 远 的 最 右 侧 ， 所 以 这 个 关系 并 不 是 很 容易 发 现 。 这 个 点 (也 就 是 离 群 值 ) 导 
致 水 平 轴 必 须 延 伸 得 很 长 。 它 代表 的 是 华盛顿 竺 区， 该 地 区 的 译 杀 座 远 高 于 其 他 地 区 ， 达 到 了 
35.4。 谋杀 这 第 二 高 的 州 是 路 易 斯 安 那 和 号 里 兰 ， 为 9.9。 

为 了 让 图 表 更 加 清楚 ， 和 市 来 更 大 的 帮助 ， 我 们 可 以 拿 挥 华 右 顿 特区 ， 同 时 去 挥 全 美 平均 值 ， 
聚焦 于 各 个 单独 的 州 。 


Crime2 <- crime[crime$state != "District of Columbia",] 
crime2 <- crime2[crime2$state != "United States",| 


第 一 行 在 crime2 中 存储 了 华盛顿 翌 区 以 外 的 数据 。 与 之 类 似 ， 第 二 行 过 渡 挥 了 全 美 平均 值 。 
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图 6-3” 移 认 生成 的 有 关 谋 杀 案 和 和信 室 盗 琅 案 的 散 点 网 
现在 再 次 绘制 得 到 的 图 表 会 更 加 清晰 ， 如 图 6-4 所 示 。 


plotCcrime2$murder, crime2$burglary) 








crime2$burglary 


crime2$murder 





图 6-4 ”过 滤 挥 数据 之 后 的 散 点 图 
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如 有 果 让 轴 从 0 开始 可 能 会 更 好 ， 所 以 在 这 里 再 进行 一 些 设置 。x 轴 应 该 从 0 到 10，y 轴 应 该 从 0 
到 1200。 这 样 做 会 把 所 有 点 的 位 置 加 右上 移动 ， 绪 采 如 图 6-5 所 示 。 


plotCcrime2$murder, crime2$burglary, xlim=c(C0,10), ylim=c(0, 1200)) 
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图 6-5 ”坐标 轴 从 0 开始 的 散 点 图 


你 知道 什么 能 够 让 这 个 图 表 更 加 有 用 吗 ? 目 然 是 第 4 章 中 提 到 的 LOESS 曲 线 。 它 能 帮助 我 们 
更 加 明确 地 观察 入 室 盗 贸 率 和 谎 杀 率 之 间 的 关系 。 通 过 scatter.smooth() 来 绘制 各 点 间 的 曲 
线 ， 结 果 如 图 6-6 所 示 。 


scatter.smooth(tcrime2$murder, crime2$burglary, 
xlim=c0,190), ylim=c(0, 1200)) 














crime2$burglary 





crime2$murder 


图 6-6 运用 曲线 来 估算 关系 
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说 明 为 了 简化 起 见 ， 华 盛 顿 特区 被 从 数据 集中 移 走 了 ， 这 样 便于 我 们 更 好 地 观察 其 他 数据 。 
但 是 数据 中 的 这 些 离 群 值 其 实 是 很 重要 的 。 我 们 将 会 在 第 7 章 中 继续 讨论 这 一 问题 。 











作为 一 个 基础 图 表 ，, 这 样 已 经 很 不 错 了 。 如 末 你 只 是 为 了 方便 分 析 ， 到底 就 拭 大 功 告 成 。 但 
如 朱 这 份 图 表 还 会 有 其 他 读者 ， 你 也 可 以 稍微 作 一 些 修 改 ， 改 善 它 的 可 谈 性 ， 如 网 6-7 所 示 。 


国 误杀 率 和 入 室 盗 


3 
次 窃 率 


杀 率 相对 较 高 的 州 ， 其 人 室 黎 饭 率 也 相对 较 高 。 


0 
谋杀 


每 10 万 人 口 





Source: U.S. Census Bureau | Nathan Yau 








图 6-7 ”改进 后 的 谋杀 案 和 入 室 盗窃 案 发 生 率 散 点 图 
我 去 挥 了 厚重 的 边框 ， 痢 弱 了 四 周 的 框 淋 感 
的 注意 力 吸引 到 曲线 上 面 。 


6.2.2 








并 加 粗 了 曲线 、 将 点 的 颜色 调 上 蜡 ， 从 而 将 该 者 
探索 更 多 的 变量 


现在 我 们 已 经 针对 两 个 


变量 进 和 
以 忆 是 只 挑选 两 个 变量 ， 





ZK 峡 
YY 


之 里 o = 你 也 可 
这 样 一 来 很 可 能 会 丢掉 很 多 机 会 ,无 法 体现 


行 了 比较 和 绘制 ,下 一 步 自 然 是 比较 其 他 
然后 绘制 它们 的 散 点 图 , 但 
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出 数据 中 其 他 有 意思 的 地 方 。 这 是 我 们 所 不 希望 看 到 的 。 所 以 最 好 是 用 散 点 图 和 矩阵 的 形式 ,绘制 
出 每 一 种 可 能 的 配对 ， 如 图 6-8 所 示 。 

这 种 方法 在 数据 探索 阶段 特别 有 用 。 也 许 在 你 面前 有 一 堆 数 据 集 , 但 你 对 从 哪 开 始 却 没有 任 
何 头绪 。 如 果 你 目 己 都 不 太 清 东 数 据 中 缆 洱 的 意义 ， 那 么 你 的 该 者 就 难 理解 了 。 








网 格 布局 
允许 多 个 变量 间 进 行 x-y 相 互 比较 





图 6-8 ” 散 扣 图 矩阵 的 基本 框 染 


提示 必须 理解 自己 的 数据 才能 讲述 一 个 完整 的 故事 。 你 对 数据 了 解 得 越 透 彻 ， 所 讲 的 故事 就 


散 点 图 矩阵 能 够 满足 我 们 的 期 望 。 它 通常 是 一 个 方 格 网 , 在 垂直 和 水 平方 各 上 都 列 出 了 所 有 
的 变量 。 水 平 轴 上 的 每 一 列 都 代表 一 个 变量 , 垂直 轴 上 的 每 一 行 也 代表 一 个 变量 。 这 样 就 提供 了 
所 有 可 能 的 配对 ， 而 对 角 线 则 可 以 空 出 来 放置 标签 ， 因 为 不 用 拿 变 量 与 其 自身 进行 比较 。 

创建 散 点 图 和 矩阵 

现在 让 我 们 回 到 犯罪 率 数 据 。 我 们 有 7 个 变量 , 或 者 说 7 个 类 型 的 犯罪 率 , 但 在 之 前 的 例子 中 
我 们 只 比较 了 其 中 的 两 个 : 谋杀 案 和 入 室 盗 人 案 。 而 通过 散 点 图 和 矩阵, 我 们 可 以 比较 所 有 的 犯罪 
类 型 。 图 6-9 显 示 了 最 终 的 效果 。 

和 我 们 预料 的 一 样 ， 有 很 多 都 是 正 相 关 。 比 如 说 入 室 盗 窃 和 故意 伤害 的 关联 性 就 比较 高 。 前 
者 增加 时 后 者 也 会 随 之 增加 ， 反 之 亦 然 。 不 过 ， 谋 杀 和 扒 窃 之 间 的 关系 就 不 是 这 么 显而易见 了 。 
因此 你 不 能 轻易 作出 任何 假设 , 而 散 点 图 矩阵 的 价值 就 体现 在 这 里 。 有 可 能 第 一 眼看 上 去 你 会 感 
觉 这 些 线条 和 图 表 很 容易 混淆 ， 但 从 左 到 右 、 从 上 到 下 地 阅读 它 ， 无 疑 会 得 到 很 多 信息 。 
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每 10 万 人 口 的 犯罪 率 


20 如 机 名 





图 6-9 美国 各 州 犯罪 率 的 散 扣 图 矩阵 


很 侍 运 ， 在 R 中 创建 散 点 图 矩阵 和 创建 单个 的 散 点 图 一 样 容易 。 仍 然 还 是 利用 p1otO) 函数 ， 
不 过 这 次 不 止 传递 两 个 列 ， 而 是 整 块 数据 ， 只 不 过 减 去 第 一 列 ， 因 为 它 的 内 容 是 各 个 州 名 。 

plot(crime2[,2:9]) 

这 行 代码 能 生成 图 6-10 中 显示 的 和 矩阵 ， 和 我 们 想 要 的 已 经 不 过 了 。 不 过 要 想 帮 助 谈 者 更 容易 
地 辨识 数据 间 的 关系 ， 还 应 该 加 上 拟 合 曲线 。 
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图 6-10”R 默 认 生 成 的 散 点 图 矩阵 


6.2 关联 性 1355 


要 想 创 建 带 有 拟 合 LOESS 曲 线 的 散 点 图 算 阵 ， 我 们 可 以 转 而 使 用 pairs (0) 函数 ,其实 也 非常 
简单 。 结 果 如 图 6-11 所 示 。 


pairs(crime2[,2:9]，panel=panel.smooth) 


Na 


提示 pairs(0) 中 的 pane1 参 数 调 用 了 一 个 有 关 x 和 >y 值 的 函数 ， 本 例 中 也 就 是 pane1.smooth() 。 


文 
它 是 及 中 的 一 个 原生 函数 ， 用 于 生成 LOESS 曲 线 。 当 然 你 也 可 以 指定 自己 的 函数 。 
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图 6-11 带 有 LOESS 曲 线 的 散 点 图 和 矩阵 


现在 我 们 已 经 有 了 一 个 很 好 的 基础 框架 了 ， 之 后 的 工作 就 是 让 它 提高 可 读 性 (参见 图 6-9 的 
最 终 效 果 )。 将 图 表 存 为 PDF 格式 ， 然 后 在 Ilustrator 里 打开 。 

大 体 上 来 讲 ， 我 们 需要 削弱 杂乱 感 ， 让 重要 的 内 容 得 到 强调 。 犯 罪 类 型 和 趋势 曲线 的 重要 性 
是 第 一 位 的 ， 各 个 圆 点 其 次 ， 坐 标 轴 最 后 ， 因 此 在 颜色 和 大 小 上 也 应 该 按 此 轻重 顺序 进行 调整 。 
对 于 对 角 线 上 的 标签 ， 可 以 适当 增加 文字 的 大 小 , 并 用 灰色 填充 方 框 ， 让 它们 凸 显 出 来 。 然 后 加 
粗 各 条 趋势 曲线 ,调整 它们 的 颜色 ， 加 大 线 与 点 之 间 的 反差 。 最 后 减 小 边框 和 网 格 线 的 粗细 ， 并 
改 为 浅 灰色 ， 使 之 得 以 弱化 。 对 比 图 6-9 和 图 6-11， 很 明显 前 者 的 表现 力 要 更 强 一 些 ， 是 不 是 ? 
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提示 明确 你 要 讲述 的 故事 的 重点 ， 然 后 在 图 表 设 计 中 有 意 强化 这 些 地 方 。 但 请 注意 不 要 扭曲 


6.2.3 气泡 

日 从 卡 罗 琳 学 院 的 国际 卫生 学 教授 、Gapminder 基 金 会 理事 Hans Rosling 用 他 的 动态 图 表 来 演 
示 有 关 国 家 贫 宣 和 健康 的 故事 以 来 ， 在 x-y 轴 上 按 比 例 显示 的 气泡 就 为 世人 所 熟知 而且 受 到 了 
极 大 的 欢迎 。 虽然 他 的 动态 图 表 通 过 动画 来 展现 随时 间 发 生 的 变化 , 但 我 们 一 样 可 以 创建 它 的 静 
态 版 本 : 气泡 图 O 











了 > 访问 Gapminder 网 站 www.gapminder.org 欣 党 Hans Rosling 的 著名 演讲 ， 其 中 包括 BBC 出 品 


的 纪录 片 The Joy of Stats， 该 片 讲述 了 统计 学 的 无 穷 乐 趣 。 





最 简单 的 气泡 图 就 是 一 系列 尺寸 按 比 例 显 示 的 气泡 , 不 过 现 在 我 们 可 以 考虑 它 的 变 体 , 也 就 
是 带 有 “气泡 ”维度 的 散 点 图 。 

这 种 图 表 类 型 的 优势 在 于 它 便 于 我 们 一 次 比较 3 个 变量 ， 如 图 6-12 所 示 。 一 个 变量 是 x 轴 , 一 
个 变量 是 y 轴 ， 而 第 三 个 则 通过 气泡 的 面积 大 小 来 体现 。 





表现 某 一 个 变量 :气泡 大 小 
的 数值 ， 该 变量 : “….. 与 半径 的 平方 成 正 例 
通常 不 是 独立 的 : 


表现 茶 一 个 变量 的 数 人 





图 6-12 气泡 图 的 基本 框 染 
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需要 注意 的 是 气泡 的 面积 大 小 , 因为 很 多 人 会 在 这 个 地 方 出 错 。 在 第 1 章 中 我 们 束 曾 提 到 过 ， 
气泡 的 大 小 是 根据 面积 来 的 ， 而 不 是 半径 、 百 径 或 者 圆 的 周 长 。 如 条 马 席 地 按 软 件 默 认 选 项 进行 
绘制 ， 最 后 得 到 的 圆 形 就 很 可 能 不 是 过 大 就 是 过 小 。 











提示 “在 用 圆 形 表示 数据 时 ， 要 根据 圆 的 面积 来 定义 尺寸 ， 而 不 是 半径 、 直 径 或 者 周 长 。 





我 们 举 一 个 简单 的 例子 来 说 明 。 假 设 你 负责 公司 的 广告 销售 ， 现 在 正在 测试 网 站 上 的 两 个 
banner 广 告 ， 以 便 了 解 哪 一 个 广告 的 宣传 效果 更 好 。 这 两 个 广告 都 投放 了 一 个 月 的 时 间 ， 但 获得 
的 点 击 次 数 是 不 同 的 : 第 一 个 banner 被 点 击 了 150 次 ， 而 第 二 个 banner 只 被 点 击 了 100 次 。 因 此 ， 
第 一 个 banner 的 效果 比 第 二 个 要 好 50%。 图 6-13 中 根据 圆 形 的 面积 表现 了 两 个 banner 气 泡 的 大 小 关 
系 ， 其 中 第 一 个 圆 比 第 二 个 要 大 50%。 





图 6-13 ”通过 面积 对 比 的 两 个 气泡 
而 在 图 6-14 中 则 是 根据 半径 的 长 短 来 表现 两 个 气泡 的 大 小 关系。 





图 6-14 ”通过 半径 对 比 的 两 个 气泡 


第 一 个 圆 的 半径 比 第 二 个 圆 的 半径 要 长 30%， 这 使 得 第 一 个 圆 的 面积 超过 了 第 二 个 图 的 2 售 
还 要 多 。 虽 然 看 上 去 这 还 不 算 什 么 大 问题 〈 现 在 只 有 两 个 数据 点 ， 比 较 起 来 还 算 容 易 )， 但 在 演 
试 表现 更 多 数据 时 ， 这 一 问题 束 会 很 容易 造成 困扰。 

创建 气泡 图 

让 我 们 看 一 下 将 要 实现 的 最 终 图 表 效 采 ， 如 图 6-15 所 示 。 它 依然 是 有 关 美 国 各 州 谋杀 案 和 入 
室 盗 盘 案 的 数据 ,但 加 入 了 各 州 的 人 口 数量 作为 第 三 维度 。 是 否 人 数 越 多 的 州 , 犯 菲 座 也 会 越 高 ? 
事实 上 并 没有 这 人 么 单纯 (和 大 多 数 情况 一 样 )。 像 加 利 福 尼 亚 、 佛 罗 里 达 和 得 殉 院 斯 这 些 大 州 确 
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实 很 接近 象限 的 右上 部 分 ， 而 纽约 州 和 宾夕法尼亚 州 的 入室 盗 贸 率 却 相对 较 低 。 与 之 类 似 ， 路 吻 
斯 安 那 和 马里 兰 的 人 口 较 少 ， 但 却 位 于 图 表 的 最 右边 。 
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图 6-15 显示 美国 犯罪 率 的 气泡 图 


和 read.csv(0) 载 人 数据 。 这 次 的 数据 和 我 们 之 前 所 使 用 的 基本 上 相同 ， 只 不 过 加 
一 列 人 口 数 量 ， 而 华盛顿 特区 被 移 除 了 。 另 外 它 不 是 通过 逗号 分 隔 ， 而 是 制 表 符 分 隔 。 不 过 
ee 大 不 了 的 ， 只 需 在 困 数 内 稍微 改动 一 下 sep 人 参数 即 可 。 


crime <- 
read.csvt "http://datasets.flowingdata.com/crimeRatesByState2005.tsv", 
header=TRUE, sep="\t") 


之 后 就 可 以 下 接 用 symbol1s 也 数 来 绘制 气泡 了 。x 轴 是 谋杀 座 ，y 轴 是 人 室 资 镭 认 ,而 气泡 
的 半径 是 根据 人 口 数量 计算 得 出 的 。 绪 有 果 如 图 6-16 所 示 。 想 尝试 一 下 symbol1s 的 其 他 功能 吗 ? 
在 后 文中 马上 就 会 看 到 。 

et crimes$sburglary, circles=crime$population) 

搞定 ， 对 吧 ? 错 ， 这 是 用 来 考验 你 的 。 这 些 圆 的 大 小 是 根据 人 口 比 例 换算 成 半径 来 定义 的 ， 
而 我 们 需要 的 是 根据 面积 来 定义 。 因 为 如 末 按 半径 来 指定 的 话 ,， 相互 之 间 的 比例 就 会 茶 乱 。 加 利 
福 尼 亚 州 的 人 口 〈《 由 中 间 那 个 巨大 的 圆 形 代 表 ) 真 的 比 其 他 州 要 多 出 那么 多 吗 ? 
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图 6-16 ”默认 生成 的 气泡 图 


要 想 正确 地 定义 大 小 ， 先 来 看 一 下 圆 面积 的 计算 公式 。 
圆 的 面 内 = 大 
代表 人 口 数量 的 是 每 一 个 气泡 的 面积 。 我 们 需要 卉 明日 怎样 通过 半径 来 定义 大 小 , 所 以 把 半 
径 移 到 等 号 左 侧 可 以 发 现 ， 它 应 该 是 和 面积 的 平方 根 成 正比 例 的 。 


r=~ 圆 的 面积 /7 


你 可 以 直接 去 掉 r， 因 为 它 只 是 一 个 常量 ， 不 过 为 了 清楚 起 见 ， 还 是 把 它 和 留 在 那里 。 现 在 就 
不 能 只 通过 crime$population 来 指定 圆 的 半径 了 ， 而 应 该 计算 出 它 的 平方 根 ， 然 后 插入 到 
symbols() 里 面 。 


radius <- sqrtC crime$spopulation/ p1 ) 
symbols(tcrime$murder, crime$burglary, circles=radius) 


第 一 行 代码 创建 了 一 个 平方 根 取 值 的 新 问 量 , 并 存储 到 radius 中 。 图 6-17 显 示 了 正确 大 小 的 
气泡 图 ,但 显得 比较 杂乱 ， 因 为 那些 人 口 少 于 加 利 福 尼 亚 的 州 的 气泡 都 变 大 了 。 

我 们 需要 把 所 有 的 圆 都 按 比 例 缩小 才能 看 清楚 图 表 的 内 容 。.symbo1sG 中 的 inches 参 数 可 以 
设 定 最 大 圆 形 的 大 小 ， 单 位 是 英寸 。 默 认 的 大 小 是 1 英寸 ， 所 以 在 图 6-17 中 加 利 福 尼 亚 州 气泡 的 
大 小 就 是 1 英寸 ， 其 他 的 气泡 都 据 此 按 比例 缩小 。 我 们 可 以 缩小 最 大 的 气泡 〈 比如 说 0.35 英 寸 )， 
但 比例 保持 不 变 。 此 外 还 可 以 通过 fg 和 bg 参数 来 改变 每 个 圆 的 边框 和 填充 色 ， 并 且 为 坐标 轴 加 
上 你 自己 的 标签 。 图 6-18 显 示 了 最 终 的 输出 结果 。 






































160 第 6 划 有 关 关 系 的 可 视 化 


symbols(tcrimesmurder, crimes$burglary, circles=radius, inches=0.35, 
fg="white", bg="red", xlab="Murder Rate", ylab="Burglary Rate 1) 


> 
如 
DS 
三 
忆 
二 
中 
E 
5 


crime$murder 





图 6-17 默认 生成 的 正确 尺寸 的 气泡 图 





图 6-18 ”气泡 缩小 后 的 气泡 岁 〈 邦 见 彩 插图 6-18 ) 
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现在 的 效果 有 点 感觉 了 。 

你 也 可 以 通过 symbolsO) 用 其 他 形状 来 创建 图 表 , 例如 正方 形 、 和 矩形 、 量 度 表 、 箱 形 图 和 星 
形 图 。 它们 的 参数 和 使 用 圆 形 时 稍 有 不 同 。 比 如 说 正方 形 ， 就 是 用 它 的 边 长 来 定义 大 小 。 不 过 和 
气泡 一 样 ， 我 们 需要 用 面积 来 表现 各 个 正方 形 之 间 的 关系 ,， 换 句 话说 ， 需 要 通过 面积 的 平方 根来 
指定 正方 形 的 边 长 。 

图 6-19 显 示 了 使 用 正方 形 后 图 表 的 样子 。 代 码 如 下 : 


symbols(crime$smurder, crimes$sburglary, 
squares=sqrt(crime$population}, inches=0.5) 
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图 6-19 ”用 正方 形 代替 圆 形 


现在 还 是 让 我 们 回 到 圆 形 。 图 6-18 中 的 图 表 已 经 有 了 分 布 的 感觉 , 但 是 读者 还 是 不 知道 哪个 
圆 代表 哪 个 州 。 所 以 我 们 还 需要 添加 标签 。 这 会 用 到 text() 函数 , 它 的 参数 包括 x 轴 坐标 、y 轴 坐 
标 和 具体 显示 的 文字 内 容 ， 这 些 我 们 手 上 都 有 。 和 代表 各 州 的 各 个 气泡 一 样 ， 各 州 名 的 x 轴 坐 标 
来 自 于 各 州 的 谋杀 率 ，y 轴 坐标 来 自 于 各 州 的 入 室 次 入 率 。 具 体 显 示 的 文字 则 是 各 州 的 名 称 ， 来 
目 于 我 们 的 原始 数据 块 中 的 第 一 列 。 

text(crime$murder, crimesburglary, crimesstate, Cex=0.5) 

其 中 cex 参 数控 制 的 是 文本 的 大 小 ， 默 认 值 为 1。 如 采取 值 大 于 1， 标 签 就 会 更 大 ， 反 之 则 会 
更 小 。 标 签 默 认 是 以 x 轴 和 y 轴 坐标 居中 对 齐 的 ， 如 图 6-20 所 示 。 
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图 6-20 ”市 有 标签 的 气泡 图 








到 了 这 一 步 ， 已 经 很 接近 图 6-15 所 示 的 最 终 效果 了 。 将 R 中 生成 的 图 表 另存 为 PDF 格式 ， 然 
后 用 你 自己 擅长 的 绘图 软件 进行 调整 ， 把 它 改 成 你 希望 的 样子 。 你 可 以 对 图 表 进 行 简化 ， 比 如 让 
坐标 轴 变 得 更 细 ， 并 且 删 除 四 周 的 边框 。 你 也 可 以 调整 某 些 标签 的 位 置 ， 尤 其 是 位 于 左下 角 的 那 
几 个 州 ， 以 便 读者 辨识 出 它们 的 名 字 。 此 外 需要 把 乔治 亚 州 的 气泡 挪 到 上 方 ， 因 为 它 被 而 积 更 大 
的 得 克 萨 斯 州 给 挡住 了 。 

这 就 是 气泡 图 。 在 R 中 输入 ?symbo1s 可 以 了 解 更 多 绘图 选项 。 不 妨 大 胆 一 点 ， 多 试 试 。 


6.3 ”分布 


大 家 也 许 听 说 过 平均 数 (mean )、 中 位 数 ( median ) 和 众 数 ( mode )。 美 国 一 般 会 在 高 中 教 
这 些 东 西 , 不 过 我 觉得 这 也 有 点 太 晚 了 ,平均 数 指 的 是 将 所 有 数据 点 相 加 然后 除 以 数据 点 的 个 数 。 
中 位 数 指 的 是 将 所 有 数据 按 从 小 到 大 依次 排列 ,然后 找到 位 于 最 中 间 的 那个 数据 点 。 众 数 则 是 指 
在 所 有 数据 点 中 出 现 频 率 最 高 的 那个 数字 。 这 些 数 字 都 有 其 价值 , 也 很 容易 得 出 ,但 是 它们 仅仅 
描述 了 数据 大 概 的 分 布 情况 ,无 法 展现 出 故事 的 全 钢 。 而 用 可 视 化 的 方式 来 表现 所 有 的 内 容 ， 其 
中 的 分 布 目 然 也 就 一 目 了 然 了 。 

图 表 的 重心 如 有 果 回 左 偏 竹 , 则 表明 大 部 分 数据 都 聚集 在 整个 取 值 域 较 低 的 一 问 。 回 右 偏 科 则 
含义 相反 。 平坦 的 线 意 味 着 均匀 分 布 ， 而 经 上 典 的 钟 形 曲线 则 表明 大 部 分 数据 聚集 在 平均 值 附 近 ， 
同时 间 两 端 未 渐 减 少 。 

接 下 来 会 先 回 大 家 介绍 一 种 经 典 的 图 表 类 型 ， 让 你 对 分 布 有 一 个 更 直观 的 认识 , 之 后 我 们 将 
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讨论 更 加 实用 的 直方 图 (histogram ) 和 密度 图 ( density plot )。 


6.3.1 老式 的 分 布 图 表 


在 20 世 纪 70 年 代 , 计算 机 还 远 未 普及 , 绝 大 部 分 的 数据 图 表 都 是 手绘 的 ,著名 的 统计 学 家 John 
Tukey 就 在 他 的 著作 探索 性 数据 分 析 理 论 》( Exploratory Data Analysis ) 中 给 出 了 一 些 建议 ， 基 
本 上 都 是 关于 如 何 用 钢笔 和 铅笔 来 区 分 线条 和 色彩 的 明暗 度 。 你 也 可 以 用 各 种 花纹 作为 填充 , 从 
而 对 变量 进行 区 分 。 

茎 叶 图 ( stem-and-leaf plot， 或 者 stemplot ) 就 是 在 这 种 环境 下 被 创造 出 来 的 。 绘 制 者 所 要 做 
的 就 是 按照 某 种 顺序 来 项 写 数字 , 最 终 得 到 的 结 采 可 以 让 谈 者 对 数据 的 分 布 有 个 大 致 的 了 解 。 这 
一 方法 在 20 世 纪 80 年 代 非 常 流行 ( 当时 在 分 析 中 运用 统计 图 表 的 势头 开始 增强 )， 因 为 它 制作 简 
单 ， 而 且 就 算是 用 打字 机 也 能 早 造 出 图 形 感 。 

虽然 谨 在 今天 我 们 有 其 他 更 人 简单、 更 快捷 的 方式 可 以 观察 分 布 , 但 回顾 一 下 这 种 方式 仍然 很 
有 价值 ， 因 为 在 制作 荃 叶 图 时 用 到 的 原则 也 同样 适用 于 下 方 图 。 

创建 葵 叶 

如 末 你 想 回 归 目 然 ， 可 以 用 钢笔 在 纸 上 绘 制 荃 叶 图 。 不 过 用 R 会 快 得 多 。 岁 6-21 显 示 了 2008 
年 全 球 出 生 座 的 茎 叶 图 ,数据 来 日 于 世界 银行 。 
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FFUTSCCT ME CI purrer=purrer STOOCTI 
> ?pairs 

> birth <- read.csv("birth-rate.csv") 

> stemCbirth$X2008) 


The decimal point is at the | 


8 | 2371334468999 
10 | @1223455566999801222334555777889 
12 | 00611111356789993789 
14 | 0034566788991237 
16 | 227779123677889 
18 | 00233677888900448 
20 | 0024445688912455679 
22 | 0057834579 
24 | 11456677771347 
26 | 31335667 
914999 
124234 
1449069 
5560849 
88908 
023455823468 





图 6-21 显示 全 球 出 生 率 的 茎 叶 图 
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如 你 所 见 , 它 非常 基础 。 基 础 性 的 数字 位 于 左 侧 ( 蔡 ), 与 其 相关 的 数字 依次 排列 在 右 侧 ( 叶 )。 
在 本 例 中 ， 竖 线 (|) 表示 小 数 点 ， 左 侧 代 表 整 数 ， 右 侧 代 表 各 数据 的 小 数位 第 一 个 数字 。 所 以 
在 2008 年 ， 志 界 各 国 每 1 千 人 口中 的 出 生 率 最 常见 的 区 间 是 10 到 12 之 间 。 不 难看 出 ， 有 一 个 国家 
(尼日尔 ) 的 出 生 率 最 高 ， 在 52 到 54 之 间 。 

以 下 是 手绘 茎 叶 图 的 方法 。 从 8 开始 瑟 下 数字 , 以 52 结 束 , 其 中 以 2 为 间隔 , 按 从 上 到 下 排列 。 
在 这 一 列 数字 的 右 侧 画 一 条 竖 线 ， 然 后 逐 行 检 查 2008 年 的 各 国 数据 , 并 相应 在 紧 线 的 右 侧 添加 各 
数据 小 数 点 后 的 第 一 个 数字 ( 如 果 有 多 个 数字 ， 则 四 含 五 人 ) 比如 说 , 某 个 国家 的 出 生 率 是 8.2， 
那么 就 在 数字 8 的 右 侧 添加 一 个 数字 2。 如 东 有 一 个 国家 的 出 生 率 是 9.9， 它 依然 也 会 归于 数字 8 那 
一 行 ， 我 们 就 应 该 在 后 面 接着 添加 一 个 数字 9。 

很 明显 ， 如 果 数 据 很 多 ， 这 个 过 程 就 会 相当 吃力 。 因 此 我 们 来 看 看 怎样 在 R 中 绘制 茎 叶 图 。 
在 载 人 数据 之 后 ， 只 需 调 用 stem() 函数 即 可 。 

birth <- read,.csvt"http://datasets.f lowingdata.com/birth-rate.csv") 

stemCbirth$X2008) 


这 就 完成 了 。 如 果 你 想 让 它 更 美观 一 点 ， 比 如 说 像 图 6-22 那 样 ， 那 么 可 以 复制 R 中 的 文本 ， 
然后 粘贴 到 其 他 地 方 调 整 样式 。 不 过 这 种 方法 已 经 过 时 了 , 用 下 方 图 可 能 会 好 很 多 。 其 实 直 方 图 
基本 上 就 是 更 加 图 形 化 的 茎 叶 图 。 





























2371334468999 
01223455566999001222334555777889 
12 | 00011111356789993789 
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8890 
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23125 








图 6-22 ” 稍 加 改进 后 的 茎 叶 图 
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6.3.2 ”有 天 分 布 的 柱 形 


观察 图 6-22 中 的 茎 叶 风 ,我们 可 以 辨识 出 每 个 具体 取 值 域 各 目的 出 现 频 率 。 某 个 出 生 率 取 值 
域内 的 国家 越 多 ， 绘 制 出 的 数字 就 越 多 ， 因 此 所 处 的 那 一 行 也 会 越 长 。 现 在 逆 时 针 翻 转 荃 叶 图 ， 
让 它 的 行 变 成 列 , 可 以 发 现 越 高 的 列表 示 该 取 值 域内 的 国家 越 多 。 现 在 把 每 一 列 的 数字 改 成 简单 
的 柱 形 (或 者 说 矩形 )， 我 们 就 得 到 了 一 个 直方 图 ， 如 图 6-23 所 示 。 




















频率 或 可 能 性 : 柱 形 高 度 
根据 群体 中 给 定 的 比 表现 柱 形 所 在 取 值 域 
例 值 进行 尺度 标识 。 出 现 的 频率 或 可 能 性 


柱 形 宽度 

表现 数值 轴 上 的 某 个 取 
值 域 ， 所 有 柱 形 所 代表 
的 取 值 域 应 当 一 致 


表 坝 趟 一 个 延续 
性 变量 的 数值 





图 6-23 ”直方 图 的 基本 框架 


柱 形 的 局 度 表示 频率 ， 而 柱 形 宽度 没有 具体 音义。 和 直方 图 的 水 平 轴 和 垂直 轴 都 是 连续 的 ,而 
一 般 柱 形 图 的 水 平 轴 上 各 个 数值 则 是 相互 分 离 的 。 在 使 用 柱 形 图 时 , 一 般 会 通过 水 平 轴 表 现 各 种 
类 别 ， 而 且 各 个 柱 形 之 间 通 沼 会 留 有 间 际 。 

有 许多 人 不 像 我 们 这 样 长 期 与 数据 图 表 打 交道 ， 他 们 往往 会 误 认 为 水 平 轴 只 能 是 时 间 。 水 
平 轴 可 以 是 时 间 ， 但 绝 不 仅 限于 此 。 在 考虑 我 们 的 受众 群体 时 这 一 点 非 肖 重 要 。 如 果 你 的 图 表 
主要 呈现 给 普通 读者 ， 那 么 就 需要 解释 图 表 的 阅读 方法 ， 以 及 他 们 知 要 注意 的 地 方 。 男 外 要 记 
住 ， 仍然 有 很 多 人 并 不 熟悉 分 布 的 概念 ， 所 以 在 设计 图 表 时 一 定 要 清晰 ， 并 且 尺 量 设 号 处 地 地 
带 助 读者 。 

创建 直方 图 

和 茎 叶 图 一 样 , 用 R 创 建 下 方 图 也 非常 容易 。 利 用 hist OQ 函数 再 次 绘制 全 球 出 生 率 的 分 布 图 ， 
结果 如 图 6-24 所 示 。 注 意 到 它 的 形状 与 图 6-22 的 荃 叶 图 之 间 的 相似 之 处 了 吗 ? 
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全 球 出 生 率 分 布 图 


2008 人 年， 绝 大 多 数 国家 外 1 下 人 11 中 新 出 
生 婴 儿 的 数 唱 都 少 F25。 但 仍然 还 人 有 很 多 
发 展 中 国家 的 女性 倾向 于 要 更 多 的 孩子 。 


国家 数量 
60 


i 。 广 -平均 出 生 率 为 每 | 下 人 
口中 有 19 个 婴儿 出 生 


40 


0 10 20 30 30 00 
Source: The World Bank 
每 1] 千 人 口中 新 出 生 婴 儿 的 数量 





图 6-24 全球 出 生 率 分 布 网 


假设 你 在 之 前 的 例子 中 已 经 载 人 了 数据 ， 那 么 现在 可 以 直接 用 histC 函数 来 处 理 2008 年 的 
数据 了 。 

histtbirth$X2008) 

图 6-25 显 示 了 默认 生成 的 直方 图 。 


birth$X2008 直 方 图 
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图 6-25 ”默认 生成 的 直方 图 
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在 默认 生成 的 直方 图 中 有 10 个 柱 形 (或 者 说 取 值 域 )， 但 我 们 可 以 通过 breaks 人 参数 随心 所 欲 
地 修改 。 比 如 说 可 以 设置 得 到 如 图 6-26 所 示 的 更 少 、 更 辕 的 柱 形 。 它 只 分 成 了 5 有 段 。 
histCbirth$X2008, breaks=5) 


birth$X2008 直 方 图 


30 
birth$ X2008 





图 6-26 分 成 5 段 的 直方 图 


我 们 也 可 以 反 其 道 而 行 之 ， 让 直方 图 显示 更 多 较 罕 的 柱 形 ， 比 如 说 20 个 ( 参见 图 6-27 )。 
histCbirth$X2008, breaks=20) 








birth$X2008 直 方 图 
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图 6-27 分 成 20 段 的 下方 图 
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你 应 该 根据 所 要 可 视 化 的 数据 特点 来 决定 分 段 的 数量 。 如 果 大 部 分 数据 都 聚集 在 茶 个 取 值 域 
内 ,那么 就 应 该 采用 较 多 的 分 段 ， 以 便 观 察 其 中 的 细 和 变化 ， 而 不 是 只 生成 一 个 很 高 的 柱 形 。 但 
如 果 没 有 那么 多 数据 , 或 者 数字 的 分 布 比较 平均 ,那么 较 粗 的 柱 形 束 会 更 加 合适 。 好 消 奶 是 如 来 
想 试验 各 种 不 同 数量 的 柱 形 ， 在 操作 上 没有 任何 难度 。 





提示 默认 的 直方 图 分 段 数 量 并 不 一 定 就 是 最 佳 选 择 。 不 断 调整 参数 ， 选 择 最 适合 数据 特点 的 


-J _E7 
分 段 数 里 o 


对 于 出 生 率 数据 来 说 ， 软 认 的 分 段 数量 还 算 合理 。 我 们 可 以 看 到 有 一 些 国家 每 1 千 人 口中 新 
生 婴 儿 的 数量 在 10 以 下 , 但 绝 大 多 数 国家 的 这 一 数字 都 位 于 10 到 25 之 间 。 还 有 不 少 国 家 超过 了 25， 
但 总 体 数 量 要 少 于 25 以 下 的 国家 。 

现在 可 以 将 图 表 男 存 为 PDF 格 式 ， 并 在 Illustrator 中 继续 编辑 。 大 部 分 操作 都 和 我 们 在 第 4 章 
中 针对 柱 形 图 所 做 的 类 似 , 不 过 也 可 以 加 入 一 些 直 方 图 特定 的 内 容 ， 从 而 提高 它 的 可 旋 性 。 另 外 
最 好 回 谈 者 作 一 些 解释 说 明 。 














提示 利用 R 的 summary( 〇 函数 ， 我们 可 以 轻松 获取 平均 数 、 中 位 数 、 最 大 值 、 四 分 位 数 等 关键 
数字 。 





在 图 6-24 的 最 终 图 表 中 ， 你 可 以 看 到 分 布 的 一 些 天 键 点 ， 比 如 平均 值 、 最 大 值 和 最 小 值 等 。 
当然 ,文字 说 明 也 是 一 个 提供 解释 说 明 的 好 机 会 。 此 外 加 入 一 点 闫 色 会 好 很 多 ,这样 直 方 图 看 起 
来 就 不 那么 像 线 框 了 。 


6.3.3 延续 性 的 密度 


虽然 直方 网 的 数值 轴 是 延续 性 的 , 但 整个 分 布依 然 被 分 成 了 数 个 柱 形 。 每 一 个 柱 形 代表 的 都 
是 一 些 条 目 (在 上 例 中 也 就 是 国家 ) 的 集合 。 那 么 在 每 个 柱 形 内 部 的 变化 又 是 怎样 的 呢 ? 在 葵 叶 
图 中 ,我 们 确实 可 以 看 到 每 个 国家 的 具体 数字 , 但 要 想 就 此 估计 各 国 间 差 距 的 大 小 ,依然 不 够 直 
观 。 其 实 和 第 4 章 中 用 LOESS 遇 线 来 观察 趋势 一 样 ， 我 们 也 可 以 用 密度 岁 来 对 分 布 的 细节 变化 进 
行 可 视 化 。 

图 6-28 显 示 了 用 曲线 代替 柱 形 图 的 效果 。 曲 线 以 下 的 总 面积 等 于 1， 垂 直 轴 代表 的 是 可 能 性 ， 
或 者 说 样本 群体 中 某 个 值 所 占 的 比例 。 

创建 密度 图 

让 我 们 回 到 出 生 率 的 数据 ,要 生成 密度 图 还 需要 一 个 步骤 ,不 过 这 个 步骤 并 不 复杂 。 我 们 需 
要 用 density(0) 困 数 来 估算 曲线 中 的 各 个 数据 点 ， 而 调用 的 数据 中 不 能 有 任何 缺失 值 。 在 2008 年 
的 数据 中 ， 有 15 行 都 缺失 了 具体 数值 (15 个 国家 没有 数据 )。 

在 R 中 ， 这 些 缺 失 值 都 被 标记 为 NA。 竺 而 我 们 很 容易 就 能 把 这 些 值 过 滤 出 去 。 
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birth2008 <- birth$X2008[!1s.natbirth$X2008)] 


可 能 性 大 小 :… 0 曲线 高 度 
群体 中 给 定 \ 估算 得 到 的 相应 
的 比例 值 0  \ 值 发 生 的 可 能 性 


面积 
曲线 以 下 的 总 
面积 代表 整体 1 


表现 条 一 个 延续 性 变 芋 的 数值 





图 6-28 ”密度 图 的 基本 框架 


说 明 在 本 例 中 ， 为 简化 起 见 ， 我 们 把 缺失 值 都 直接 移 除 了 。 在 你 自己 探索 和 可 视 化 数据 时 ， 
最 好 多 注意 一 下 这 些 缺 失 值 。 它 们 为 什么 会 缺失 ? 是 应 该 把 它们 归 零 呢 , 还 是 直接 移 除 ? 





这 行 代 人 码 会 从 出 生 率 数据 中 检索 2008 年 的 那 一 列 , 然后 只 谈 取 那些 不 含有 缺失 值 的 行 , 并存 
储 到 变量 bi rth2008 中 。 用 技术 性 语言 来 描述 就 是 : is .na 〇 会 检测 birth$X2008 这 个 向 量 中 的 
每 一 个 条 目 ， 然 后 通过 布尔 运算 判断 各 个 条 目的 值 是 true 还 是 false， 最 后 返回 一 个 长 度 相 同 的 
回 量 。 当 我 们 将 这 个 布尔 运算 得 到 的 向 量 传 递 到 原 回 量 的 索引 中 时 ， 就 只 会 返回 其 中 那些 值 为 
true 的 条 目 了 。 如 有 果 你 不 太 理 解 这 些 也 没关系 ,我 们 无 需 了 解 所 有 的 技术 细 方 也 一 样 能 够 得 到 
结 来 。 不 过 ， 如 采 你 打算 定义 目 己 的 函数 ， 以 上 内 容 可 能 会 帮助 你 了 解 代 码 的 原理 。 

现在 我 们 用 birth2008 储 存 了 “干净 ”的 出 生 率 数据 ， 所 以 可 以 将 它 传 递 给 density(0) 困 数 
以 求 出 曲线 ， 并 将 结果 存储 到 d2008 中 。 

d2008 <- density(birth2008) 

这 行 代 码 可 以 让 我 们 得 到 曲线 的 各 个 x 轴 和 y 轴 坐标 , 我 们 甚至 还 可 以 把 这 些 坐 标 存 储 为 文本 
文件 ， 这 一 点 很 酷 ， 因 为 有 了 这 个 文本 文件 ， 就 可 以 导入 到 其 他 的 图 表 绘 制 软件 中 去 。 在 R 的 控 
制 台 输入 d2008 可 以 看 到 变量 中 存储 的 内 容 ， 如 下 所 示 : 


Call: 
density.default(x = birth2008) 



































Data: birth2008 C219 obs.): Bandwidth ‘bw = 3.168 





170 第 6 章 ， 有关 关系 的 可 视 化 


Xx y 
Min. :-1.299 Min. :Gb.479e-06 
lst Qu.:14.786 lst Qu.:1.433e-03 
Median :30.870 Median :1.466e-02 
Mean :30.870 Mean :1.553e-02 
3rd Qu.:d46.954 3rd Qu.:2.646e-02 
Max, :63.039 Max, 4,408e-02 


我 们 关心 的 主要 是 其 中 的 x 和 y。 以 上 显示 的 是 各 坐标 的 细 目 ， 如果 你 想 获 得 所 有 的 坐标 ， 可 
以 按 以 下 代码 输入 : 

d2008$x 

d2008$y 


然后 试 着 用 write.table0 将 它们 保存 到 文本 文件 中 。 该 函数 中 的 参数 可 以 指定 你 希望 保存 的 数 
据 、 文 件 名 以 及 硕 望 使 用 的 分 隔 符 〈 如 逗 吕 或 制 表 符 )， 以 及 其 他 一 些 内 容 。 要 想 把 该 数据 存 为 
基本 的 以 制 表 符 分 隔 的 文本 文件 ， 可 以 按 以 下 代码 输入 : 

d2008frame <- data.frame(d2008$x, d2008$y) 

write,.table(d2008frame, “birthdensity.txt", sep="\t") 














说 了 明 write.table() 函数 会 在 你 当前 的 工作 路 径 中 生成 一 个 新 文件 。 可 以 通过 主 菜单 或 者 
setwd() 来 改变 当前 的 工作 路 径 。 





现在 你 的 工作 路 径 中 应 该 出 现 了 一 个 birthdensity.txt 文 件 。 如 果 你 不 希望 每 行 都 列 出 序号 , 或 
者 不 和 希望 用 制 表 符 而 是 用 逗号 作为 分 陋 符 ， 也 很 容易 实现 : 

write.table(d2008frame, "birthdensity.txt", sep=",", row.names=FALSE) 

现在 你 可 以 把 这 些 数据 导 人 到 Excel、Tableau、Protovis， 或 者 其 他 任何 能 识别 分 隔 符 文本 的 
软件 中 去 了 。 几 乎 所 有 软件 部 支持 这 种 格式 。 




















提示 如 果 你 想 用 RR 以 外 的 软件 来 绘图 ， 但 又 不 希望 放弃 RR 的 计算 功能 ， 可 以 在 任何 时 候 通 过 
write.table() 函 数 来 保存 当前 有 R 中 的 结果 。 





证 我 们 回 到 之 前 的 密度 图 。 我 们 已 经 得 到 了 密度 图 的 坐标 ， 现 在 只 需 用 pl1ot 0 图 数 将 它们 
呈现 为 图 表格 式 即 可 。 结 果 如 网 6-29 所 示 。 





plot(d20087 
如 果 你 愿意 ， 也 可 以 通过 plot() 加 上 polygon 〇 也 数 创建 带 有 填充 色 的 密度 图 ， 效 果 如 图 





6-30 所 示 。 前 者 用 于 设置 坐标 轴 ， 但 将 type ( 类 型 ) 设 为 "'n" 表 示 暂 不 绘制 。 接 着用 后 者 来 绘制 
形状 ， 并且 将 填充 色 设 为 暗 红色 、 边 框 设 为 浅 灰 色 。 

plot(d2008, type="n") 

polygon(td2008, col="#82]122", border="#ccccee'") 


density.default(x = birth2008) 





图 6-29 出生率 的 密度 图 


density.default(x = birth2008} 





带宽 =3.168 





图 6-30 ”填充 后 的 密度 图 


现在 还 可 以 继续 深入 一 步 。 可 以 将 直方 图 和 密度 图 绘制 在 一 起 , 通过 柱 形 来 表现 实际 频率 的 
分 布 .通过 曲线 来 表现 计算 得 出 的 比例 , 如 图 6-31 所 示 。 这 里 用 到 的 是 histogramO) (来 自 于 lattice 
工具 包 ) 和 1inesO 〇 这 两 个 阴 数 。 前 者 创建 一 个 新 的 图 表 ， 而 后 者 在 已 有 的 图 表 上 加 上 线条 。 


library(lattice) 
histogram(birth$xX2008, breaks=10) 
lines(td2008) 
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30 
birth$X2008 





图 6-31 ”直方 图 和 密度 图 的 混合 


我 们 能 做 的 有 很 多 , 还 可 以 加 入 各 种 变化 , 但 其 中 涉及 的 数 等 和 几何 等 知识 其 实 和 老式 的 茎 
叶 图 是 一 样 的 , 无 非 是 计算 、 聚 合 然后 分 组 。 我 们 可 以 根据 数据 对 象 的 特点 来 决定 选择 何 种 变 体 。 
图 6-32 显 示 了 经 过 修饰 后 的 图 表 。 我 弱化 了 坐标 轴 ， 重 新 涩 加 了 标签 ， 并 标 出 了 平均 值 。 表 现 密 
度 的 垂直 轴 在 本 图 中 的 作用 不 大 ， 不 过 出 于 完整 性 的 考 愿 我 依然 还 是 保留 了 它 。 











2008 年 全 球 出 生 率 分 布 图 
密度 


平均 出 生 率 为 每 ] 千 人 
口中 有 19 个 婴儿 出 生 


| 
0 10 60 
每 1 千 人 器 中 新 出 生 婴 儿 的 数量 Source: The World Bank 





图 6-32 ”2008 年 全 球 出 生 率 的 密度 图 
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6.4 对照 和 比较 


通常 来 说 , 将 多 个 分 布 同 时 进行 比较 会 带 来 更 大 帮助 , 而 不 是 只 考虑 平均 数 、 中 位 数 和 众 数 。 
毕 葛 这 些 摘要 性 质 的 统计 只 是 对 大 局 的 一 种 “ 摘 述 符 ”， 它 们 讲述 的 只 是 故事 的 片段 。 

比如 说 , 我 可 以 告诉 你 2008 年 的 全 球 平 均 出 生 率 是 每 1 千 人 口中 有 19.98 个 婴儿 出 生 , 而 在 1960 
年 的 平均 数 则 是 32.87。 所 以 2008 年 的 出 生 率 要 比 1960 年 低 39%。 但 这 些 只 能 告诉 你 整个 分 布 的 总 
体 发 生 了 什么 。 是 否 大 多 数 国家 的 出 生 率 其 实 并 无 显著 变化 ， 只 是 有 少数 国家 在 1960 年 的 出 生 率 
过 高 ， 从 而 拉动 了 平均 值 ? 过 去 这 几 十 年 来 出 生 率 间 的 差距 到 底 是 在 持续 增加 还 是 持续 减少 ? 

我 们 可 以 通过 多 种 途径 来 进行 比较 。 我 们 可 以 据 弃 可 视 化 、 只 靠 分 析 来 得 出 结果 (我 读 人 研 时 花 
了 一 整 年 时 间 学 习 各 种 统计 方法 ， 而 它们 也 只 是 冰山 一 角 )。 或 者 我 们 也 可 以 利用 可 视 化 来 达到 同 
样 的 效果 。 这 种 方法 得 到 的 结果 虽然 不 如 周密 的 统计 分 析 那 么 精确 , 但 它们 足以 帮助 我 们 在 任何 方 
面 作出 明智 的 决策 。 很 明显 ， 更 多 人 都 会 选择 可 视 化 途径 ， 这 也 是 我 写 这 本 书 的 目的 ， 不 是 吗 ? 


多 个 分 布 图 表 


到 目前 为 止 我 们 只 专注 于 一 个 分 布 情况 , 也 就 是 2008 年 的 出 生 率 。 但 如 果 查看 一 下 数据 源 文 
件 或 者 R 中 的 数据 帧 ， 我 们 就 会 发 现 其 中 提供 了 1960 一 2008 年 每 年 的 出 生 率 数据 。 唔 ， 当 然 了 ， 
无 论 你 看 不 看 ， 它 们 都 在 那里 。 正 如 我 之 前 所 提 到 的 ， 全 球 出 生 率 呈现 显著 的 下 降 趋 势 ， 但 整个 
分 布 到 底 是 如 何 变化 的 呢 ? 

现在 让 我 们 直接 为 每 一 年 都 创建 一 个 直方 图 , 然后 把 它们 以 矩阵 的 形式 进行 组 织 。 这 种 设计 
思路 和 本 章 一 开始 的 散 点 图 矩阵 非常 相似 。 

1. 创建 直方 图 矩阵 

R 中 的 lattice 工 具 包 让 我 们 只 需 一 行 代码 就 能 创建 出 一 整套 直方 图 , 但 有 一 个 小 问题 : 我 们 必 
须 以 这 个 函数 接受 的 格式 来 癌 它 传递 数据 。 以 下 是 R 在 一 开始 载 人 的 文本 文件 的 片段 。 

Country,1980,1961,1962,1963... 


Aruba,36.4,35.179,33.863,32.459... 
Afghanistan,52.201,52.206,52.208,52.204... 



























































可 以 看 出 ,每 一 个 国家 都 有 一 行 数据 。 第 一 列 是 国家 的 名 称 ， 然 后 每 一 年 都 占有 一 列 ， 因 此 
算 上 标 头 共有 50 列 234 行 数据 。 但 我 们 需要 这 些 数据 按 两 列 来 呈现 : 一 列 是 年 份 ， 男 一 列 是 出 生 
率 。 这 里 并 不 需要 国家 的 名 称 ， 因 此 数据 的 头 儿 行 看 起 来 应 该 是 这 个 样子 : 

year,rate 

1960,36.4 

1961 35 .179 

1962,33.863 

1963,32.459 

19364,30.994 

1965,29.513 
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比较 一 下 这 两 个 片段 , 不 难 发 现在 第 二 个 片段 中 的 数值 对 应 的 是 前 一 个 厂 段 中 的 国家 阿 鲁 巴 
(Aruba， 加 勒 比 海岛 国 )。 所 以 每 一 个 国家 每 一 年 的 出 生 率 都 应 占据 一 行 ， 这 样 就 会 需要 9870 行 
数据 ( 算 上 标 头 )。 

那么 怎样 才能 让 数据 变 成 我 们 想 要 的 格式 呢 ?” 还 记得 在 第 2 间 中 用 过 的 Python 吗 ?我 们 在 
Python 里 载 人 CSV 文 件 ， 然 后 循环 处 理 其 中 的 每 一 行 ， 输 出 为 我 们 想 要 的 数据 格式 。 现 在 也 可 以 
这 么 干 。 用 你 喜欢 的 文本 编辑 需 新 建 一 个 文本 文件 并 存 为 transform-birth-rate.py。 请 确保 它 的 存 
放 路 径 与 birth-rate.csv 相 同 。 然 后 输入 以 下 代码 : 


import CSsvV 























reader = csyv.reader(opentC'birth-rate.csy’, 'r'), delimiter=",") 


rows so far = 0 
print ‘year,rate’ 
for row in reader: 
if rows_so far == 0: 
header = row 
rows_s0o_far += 1 
else: 


for i in range(lentrow)): 
if 1 > 0 and row[]: 
print header[i] + ', + row[Lij 


rows_so far += 1 
以 上 代码 看 上 去 应 该 很 眼 谭 ， 不 过 现在 让 我 们 拆 开 来 分 析 。 我 们 导入 了 了 csv 工具 包 ， 接 者 载 
入 birth-rate.csv。 然 后 输出 标 头 ， 循 环 处 理 每 一 行 每 一 列 ， 从 而 让 代码 把 数据 输出 为 我 们 想 要 的 
格式 。 在 控制 台中 运行 以 上 脚本 ， 并 将 输出 保存 为 一 个 名 为 birth-rate-yearly.csv 的 新 CSV 文 件 。 


python transform-birth-rate.py > birth-rate-yearly,.csyv 








提示 如 果 你 希望 将 全 部 代码 都 写 在 RR 里 ， 可 以 试 试 Hadley Wickham 的 reshape 工 具 包 。 它 能 帮助 
你 把 数据 帧 改 为 需要 的 格式 。 





很 好 。 现 在 用 histogram() 来 创建 矩 了 泗 ， 让 我 们 回 到 R， 用 read.csvGO) 载 人 新 的 数据 文件 。 
如 采 你 刚才 省 略 了 改变 数据 格式 那 一 步 , 我 这 里 提供 了 一 份 修 改 后 的 数据 文件 , 你 可 以 直接 通过 
URL 来 载 人 它 。 
birth yearly <- 
read.csv(C"'http:i//datasets.flowingdata.com/birth-rate-yearly.csv") 
现在 把 数据 插入 到 histogram() 里 面 ， 生 成 一 个 10 x 5 的 和 矩阵， 显示 按 年 份 划 分 的 出 生 率 。 
输出 结果 应 如 图 6-33 所 示 。 
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histogram( rate | year, data=birth yearly, layout=c(10,3)) 
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图 6-33 ”默认 生成 的 直方 图 矩 阵 


效果 不 赖 ,但 还 有 改善 的 余地 。 首 先 ， 有 一 个 异常 值 出 现在 右 侧 很 远 的 位 置 ， 导致 其 他 所 有 
柱 形 都 被 撞 到 了 左 侧 。 其 次 ,矩阵 的 每 一 个 单元 中 都 有 根 检 色 的 竖 线 ， 随 者 年 份 的 增加 它 会 从 左 
往 右 移动 , 但 如 采 明 确 标 出 年 份 数 子 ， 反而 会 更 加 便于 理解 。 最 后 一 点 ( 由 于 没有 年 份 标签 所 以 
很 难看 出 )， 这 些 百 方 图 的 顺序 并 不 大 合适 。 第 一 个 年 份 ， 也 就 是 1960 年 ， 出 现在 左下 角 ，1969 
年 在 右 下 角 。1960 年 那个 单元 的 上 方 是 1970 年 。 也 就 是 说 ,年 代 顺 序 是 从 下 往 上 、 从 左 至 右 排 列 
的 。 这 让 人 感觉 很 别扭 。 

要 想 找 出 那个 异常 值 ， 让 我 们 再 次 对 bi rth_year1y 使 用 summary() 函数 。 

Year rate 

Min. :1960 Min, : 6.90 

lst Qu.:1973 lst Qu.: 18.06 

Median :1986 Median :; 29.61 

Mean :1985 Mean : 29.,94 

3rd Qu.:1997 -3rd Qu.: 41.91 

Max, :2008 Max, :132.00 
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最 大 值 是 132。 这 看 起 来 有 些 离 证， 因为 出 生 座 几乎 没有 接近 100 的 。 是 哪里 出 了 问题 ?我 们 
发 现 由 画 〈 西 太平 洋 岛 国 ) 在 1999 年 的 出 生 率 被 记录 为 132。 这 很 可 能 是 一 个 笔 误 ， 因 为 帕 郁 的 
出 生 率 在 1999 年 前 后 都 从 未 超过 20。 很 可 能 应 该 是 13.2, 但 我 们 也 不 能 亡 下 绪论 , 最 好 多 加 人 研究 。 
就 目前 来 说 ， 让 我 们 先 移 除 这 个 数值 。 

birth_yearly.new <- birth_ yearly[birth_ yearly$rate < 132,] 

再 来 看 看 年 份 标签 。 如 果 标 签 的 值 是 以 数字 存储 的 ， 那 么 lattice 函 数 会 日 动用 一 根 术 色 竖 绑 
来 指示 数值 。 然 而 , 如 来 标 签 处 是 字符, 那么 函数 就 会 使 用 字符 串 , 所 以 现在 让 我 们 来 调整 一 下 : 

birth_vyearly.newi$year <- as.character(tbirth_ yearly.nNew$year) 

我 们 还 需要 调整 顺序 。 首 先 还 是 得 创建 下 方 图 矩阵 ， 然 后 将 其 存储 为 一 个 变量 。 

h <- histogramt™ rate | year, data=birth_ yearly.new, layout=c(10,5)) 

然后 用 update() 函数 来 改变 直方 图 的 顺序 。 

updateth, index.cond=1listtc(t41:50, 31:40, 21:30,，11:20,1:10))) 

这 样 就 调转 了 所 有 行 的 顺序 。 结 果 如 图 6-34 所 示 ， 我 们 得 到 了 一 个 标签 清晰 的 直方 图 矩阵 ， 而 
且 由 于 移 除 了 错误 值 , 分 布 呈 现 得 更 加 明确 。 此 外 ， 直方 图 的 排列 更 具有 逻辑 性 ,读者 可 以 从 左 至 
右 、 从 上 到 下 地 阅读 。 视 线 从 每 一 行 中 菏 个 单元 直接 往 下 移动 ， 就 能 看 到 分 布 在 10 年 后 的 变化 。 
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图 6-34 ”修改 后 的 直方 图 矩阵 
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现在 的 整个 布局 已 经 很 不 错 了 。 如 果 你 希望 在 Illustrator 里 继续 美化 图 表 ， We 
字体 、 调 整 边框 和 填充 色 ， 以 及 一 些 整体 上 的 清理 ,结果 如 图 6-35 所 示 。 这 样 一 来 可 读 性 会 
ee et et dene 
文字 说 明 、 数 据 来 源 ， 并 且 指 出 全 球 出 生 率 的 分 布 是 如 何 逐 渐 往 左 ( 低 出 生 率 ) 偏 移 的 。 对 于 
单独 的 图 表 来 说 这 可 能 有 点 复杂 ， 因 此 你 需要 提供 充分 的 上 下 文 背 景 ， 以 便于 读者 完全 理解 数 
据 的 意义 。 


每 1 千 人 口中 新 出 生 的 页 儿 数 量 
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每 1 千 人 口中 新 出 生 的 页 儿 数 量 





图 6-35 ”在 Illustrator 中 完善 后 的 直方 图 矩阵 


解决 问题 并 不 是 只 有 这 一 种 途径 。 我 们 还 可 以 用 Processing 、Protovis 、PHP 或 者 任何 能 绘 
制 柱 形 的 工具 来 创建 同样 的 直方 图 和 矩阵。 其 至 在 R 里 也 有 多 种 方法 可 以 绘制 和 上 图 一 样 的 矩阵 。 
比如 说 , 我 为 FlowingData 绘 制 了 一 幅 有 关 2002 一 2009 年 家 庭 电 视 尺 寸 的 分 布 变 化 图 , 如 图 6-36 


所 未 。 
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数 年 间 的 电视 尺寸 


一 项 有 天“ 家 用 电视 平均 尺 汪 的 小 型 调查 援引 夏普 公司 的 话说 ， 到 2015 年 
电视 的 平均 尺寸 会 达到 60 关 寸 《 数 据 来 源 暂 不 吕 若 ) 。 那 么 在 过 去 8 年 中 ， 这 
块 视 他 的 娱乐 屏幕 到 压 变 大 了 了 多少 呢 也 许 并 不 如 你 想象 的 那么 多 。 


中 间 尺 寸 : 

34 (英寸 ) 
10 20 30 40 50 60 70 80 

中 间 尺 寸 : 

34 


10 20 30 40 50 60 70 80 


中 间 尺 寸 。 最 大 的 尺寸 跨度 发 生 
40 在 2003 一 2004 年 间 
10 20 30 40 50 60 70 80 


中 间 尺寸 。 在 最 初 的 兴奋 过 
42 后 又 趋 于 冷静 了 ? 
10 20 30 40 50 60 70 80 
中 间 尺 寸 : 
42 
10 20 30 40 $50 60 70 80 
中 间 尺 寸 ; 
: z z 40 
10 20 30 40 50 60 70 80 
中 间 尺 寸 : 
40 


10 20 30 40 50 60 70 80 


中 间 尺 寸 :似乎 在 过 去 3 年 中 
46 只 是 在 玩 价格 游戏 


10 20 30 40 50 60 70 80 
关于 数据 
以 上 数据 来 自 于 CNET 科 技 资讯 网 过 大 数 年 来 的 745 篇 评论 文章 。 员 然 评 
论 无 法 仁 价 于 销 费 者 购 闫 电视 的 真实 情况 ， 但 它们 能 反映 出 市 场 的 让 流 。 


Data from CNet / Created by FlowingData 





图 6-36” 数 年 间 电 视 尺 寸 的 分 布 
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这 段 代 码 和 我 们 之 前 写 的 有 些 出 入 , 但 总 体 逻 辑 是 相似 的 : 载 和 数据， 过 小 对 异常 值 ， 然 后 
画 出 一 堆 直 方 图 。 区别 在 于 我 没有 用 到 lattice 工 具 包 中 的 histogram() 函数 。 图 表 的 布局 用 到 了 R 
中 常 见于 全 局 参数 设置 的 par (函数 ， 而 绘制 直方 图 则 用 到 了 hist0 〇 聘 数 。 

# Load data 


tvs <- read.tableCt'http://datasets.t lowingdata.com/tvy_sizes.txt', 
sep="\t", header=TRUE) 








# Filter outliers 
tvs <- tvs[tvs$size < 80, ] 
tvs <- tvs[tvs$size > 10, |] 


# Set breaks for histograms 
breaks = seq(10, 80, by=5) 


# Set the layout 
parmfrow=c(4,2)) 


# Draw histograms, one by one 

histttvs[tvs$year == 2009,]$size, breaks=breaks) 
hist(tvys[tvs$year == 2008,]$size, breaks=breaks) 
hist(tys[tvys$year == 2007,]$size, breaks=breaks) 
hist(ttys[tvys$year == 2006,]$size, breaks=breaks) 
hist(tys[tvs$year == 2005,]$size, breaks=breaks) 
hist(tvs[tvs$year == 2004,]$size, breaks=breaks) 
hist(tys[tvys$year == 2003,]$size, breaks=breaks) 
hist(tvys[tvs$year == 2002,]$size, breaks=breaks) 


这 段 代 码 的 输出 如 图 6-37 所 示 。 图 中 有 4 行 2 列 ， 这 是 由 parG) 里面 的 mfrow 参 数 来 指定 的 。 
而 在 最 终 发 布 的 图 表 里 ， 我 把 它们 放 在 一 列 显示 。 重 要 的 是 ， 用 R 可 以 让 我 避免 在 Illustrator 或 者 
Excel 里 面 输入 一 大 堆 数 据 来 手动 生成 8 个 图 表 。 

2. 系列 组 图 

将 大 量 小 图 表 归 于 一 起 的 技巧 通 和 党 被 克 作 “系列 组 图 ”( small multiples ), 这 种 图 表 方 便 读 
者 多 个 群 组 和 分 类 之 间 及 其 内 部 比较 。 此 外 ,将 有 规律 的 多 个 图 表 整 合 到 一 起 ， 还 会 显得 更 有 
组 织 性 。 

比如 说 ,我 曾经 在 烂 番 刘 ( Rotten Tomatoes ) 网 站 上 浏览 过 很 多 “三 部 曲 ” 系 列 影 片 的 评分 。 
可 能 有 些 读者 不 太 询 悉 烂 番 训 网 , 这 个 网 站 会 聚合 各 种 影片 评论 , 并且 将 其 划分 为 “好 评 ” 和 “ 差 
评 ”。 如 果 有 60% 以 上 的 评论 者 声称 他 们 喜欢 某 部 影片 ,， 那么 该 影片 就 会 彼 标 记 为 “新 鲜 ”。 反之 ， 
目 然 就 是 “ 烂 ” 了 。 我 希望 了 解 各 大 系列 影片 的 续集 和 其 首部 曲 相 比 ， 到 底 是 更 “新 鲜 ” 还 是 更 
“人 烂 ”。 结 论 并 不 乐观 ， 如 图 6-38 所 示 。 大 结局 得 到 的 均 分 要 比 首 部 曲 得 到 的 均 分 低 37%。 换 句 话 
说 ， 绝 大 多 数 首 部 曲 都 很 “新 鲜 ”， 而 绝 大 多 数 大 结局 都 很 “ 烂 ”。 
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tvs[tvs$V1==2009, ]$V2 直 方 图 


tvs[tvs$V1 == 2009, ]$V2 


tvs[tvs$V1==2007, ]$V2 直 方 图 


tvs[tvs$V1 == 2007, ]$V2 


tvs[tvs$V1==2005, ]$V2 直 方 图 


tvs[tvs$V1 == 2005, ]$V2 


tvs[tvs$V1==2003, ]$V2 直 方 图 


tvs[tvs$V1 == 2003, ]$V2 


tvs[tvs$V1==2008, ]$V2 直 方 图 


tvs[tvs$V1 == 2008, ]$V2 


tvs[tvs$V1==2006, ]$V2 直 方 图 


tvs[tvs$V1 == 2006, ]$V2 


tvs[tvs$V1==2004, ]$V2 直 方 图 


tvs[tvs$V1 == 2004, ]$V2 


tvs[tvs$V1==2002, ]$V2 直 方 图 


tvs[tvs$V1 == 2002, ]$V2 





图 6-37 ”下方 图 的 网 格 布局 
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虎 头 几 尾 的 三 部 曲 
大 家 部 知道 ， 部 曲 系 列 彩 三 的 续集 币 . 集 往 往 部 很 关 莹 。 并 不 和 号 所 有 有 的 “部 曲 孝 能 像 
《防具 恕 动员 》 或 者 《指环 王 几 那 梓 保 持 企 导 不 用 的 。 那 么 这 董 部 曲 娶 后 和 到底 和 多 烂 ? 


舍 部 曲 续集 大 结局 
必须 足够 杂 才 会 推出 续 征 狐 和 鲜 还 是 很 可 能 不 会 像 首 部 曲 邦 
集 ， 《水 上 特 诡 队 》 “除外 。 和 空 ， 五 五 开 。 么 好 ， 度 殉 斯 出 员 阶 外 。 


(新 鲜 度 ) 





图 6-38 ”三 部 曲 系列 影 片 从 首部 曲 到 大 结局 的 评价 趋势 


实际 上 ， 这 就 是 对 3 个 直方 图 进行 翻转 得 到 的 结果 。 图 6-39 显 示 了 R 中 原始 生成 的 直方 图 。 我 
只 是 在 Illustrator 里 面 对 它 们 进行 了 一 些 美 化 。 





Q) 《冰河 特工 队 》( The Mighty Ducks ) 是 迪士尼 于 1992、1994、1996 年 推出 的 三 部 曲 系列 影片 ， 一 气 呵 成 、 前 后 呼 
应 ， 尤 其 是 那些 小 童星 从 小 演 到 大 ， 是 迪士尼 非常 成 功 的 运动 题材 系列 影片 。 
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trilogies$First 直 方 图 


trilogies$First 


trilogies$Second 直 方 图 


trilogies$Second 


trilogies$Third 直 方 


trilogies$ Third 





图 6-39 ”原始 的 三 部 曲直 方 图 


FlowingData 的 读者 自然 能 够 理解 这 些 图表 的 意思 一 一 他 们 天 生 都 对 数据 敏感 。 然 而 ， 这 幅 
图 表 后 来 被 IMDB ， 也 就 是 网 络 电影 资料 库 ( Internet Movie Database ) 引用 了 。IMDB 的 受众 群体 
要 更 为 广泛 ， 而 且 根据 他 们 的 评论 来 看 ， 对 数据 不 够 敏感 的 读者 在 解读 这 些 分 布 时 非常 吃力 。 

不 过 ， 图 表 的 第 二 部 分 ( 见 图 6-40 ) 看 上 去 就 容易 理解 多 了 。 它 运用 了 系列 组 图 的 概念 ， 每 
一 个 柱 形 都 代表 一 部 电影 的 评分 。 红 色 的 柱 形 代表 “ 烂 ”， 而 绿色 代表 “新 鲜 ”。 
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虎 头 蛇 尾 的 三 部 曲 


在 我 们 选择 的 35 个 电影 二 部 山中，“ 新 鲜 ” 的 首 ee 中 
部 曲 有 23 个 ， 而 “新 鲜 ” 的 大 结局 只 有 11 个 。 = 


王牌 比 佛 利 山 
大 贱 谍 目 国生 加 到 未来 刀锋 战士 


谍 影 重重 i 杀 出 个 黎明 
冰河 世纪 我 知道 你 去 年 
敌 玉 和 干 了 什么 
指环 王 疯狂 麦克 斯 天 客 带 国 
水 上 特工 队 碟 中 谍 资 莫 迷城 白头 神探 
十 一 罗汉 生化 危机 4 战 和 鬼 马 小 精灵 
尖峰 时 刻 蔡 区 必 人 人 惊 声 尖 蜂 蛛 使 
非 汕 小 特工 星球 大 战 前 传 忍者 神 多 


委 夜 传说 “国王 国 


Source: Rotten Tomatoes, Wikipedia | By: FlowingData, http:/ /flowingdata.com 





图 6-40 ”三 部 曲 评分 的 系列 组 图 


可 能 有 些 人 在 想 这 是 怎样 做 到 的 。 它 只 是 一 大 堆 柱 形 图 ,我们 可 以 像 之 前 那样 修改 mfrow 参 
数 ， 并 且 用 到 plotO 〇 或 者 polygonO 〇 了 荫 数 。 不 过 我 在 这 里 用 的 是 Illustrator 里 面 的 柱 形 图 工具 
( Column Graph tool )， 因 为 当时 它 正好 打开 者 。 

在 发 表 这 幅 图 后 , 我 学 到 了 几 件 事情 。 首先 也 是 最 重要 的 是 , 集合 与 分 布 并 不 是 每 个 人 都 能 
轻易 理解 的 概念 ， 因 此 我 们 需要 尽力 解释 清楚 ， 在 讲 故事 时 要 倍加 小 心 。 我 学 到 的 第 二 件 事 情 ， 
就 是 人 们 上 忠于 目 己 喜爱 的 电影 ， 如 果 你 对 他 们 的 击 爱 村 加 批评 ， 他 们 会 很 较真 。 
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6.5 ”小结 


在 数据 中 探索 关 系 有 时 候 会 鼎 具 挑战 性 , 而且 还 需要 更 多 的 批判 性 思维 , 不 能 育 目 地 拿 看 数 
字 就 开始 画图 。 不过， 这 样 也 会 呈现 更 多 的 信息 ,市 来 更 大 的 回报 。 它 表现 了 你 的 数据 ， 或 者 说 
数据 代表 的 事物 之 间 是 如 何 关 联 及 互动 的 ， 这 些 才 是 最 有 意思 的 部 分 ， 正 是 它们 造就 了 最 好 的 
故事 。 

本 章 讲述 了 如 何在 多 个 变量 中 找寻 关联 性 ， 但 同时 也 从 更 加 宽泛 的 意义 上 阐述 了 关系 的 实 
质 。 从 分 布 观 察 事物 作为 整体 是 如 何 彼此 联系 的 ， 在 分 布 中 寻找 模式 、 吻 除 异 第 值 ， 然后 考虑 整 
件 事 的 上 下 文 背景 。 如 果 在 这 个 过 程 中 你 发 现 了 一 些 有 趣 的 地 方 , 尝试 通过 数据 的 上 下 文 痛 景 找 
到 可 能 合理 的 解释 。 

这 是 在 处 理 数据 时 最 激动 人 心 的 部 分 , 因为 你 开始 探索 数据 的 意义 ,而 且 很 可 能 会 迭 气 到 一 
些 有 意思 的 内 容 。 当 你 迭 握 得 足够 多 了 ， 就 需要 回访 者 解释 目 己 的 发 现 。 记 住 ， 并 不 是 每 个 人 都 
能 理解 数字 语言 ， 因 此 请 保持 正常 人 能 接受 的 水 准 。 不 过 ， 如 果 你 的 读者 神 是 数据 迷 ， 那 么 提高 
一 下 水 准 应 该 也 没 问 题 。 












































发 现 才 孝 





体育 评论 员 喜 欢 把 少数 运动 员 捧 为 超级 明星 ， 或 者 认为 其 高 人 一 等 ， 
而 把 其 他 运动 员 视 为 平均 水 平 或 角色 球员 。 这 种 分 类 一 般 并 不 是 来 自 于 统 
计数 据 ， 而 是 来 自 他 们 看 过 的 大 量 比 赛 。 这 是 种 “我 看 即 我 识 ” 的 心理 ， 并 
非 满嘴 跑 火 车 。 评 论 员 (往往 ) 都 知道 自己 在 说 些 什么 , 通常 也 会 考 卡 到 
数据 的 上 下 文 背 景 。 每 当 体育 分 析 员 查看 运动 员 的 表现 数据 时 ， 必定 会 有 
人 提 到 :“ 你 不 能 只 看 表面 的 数据 。 正 是 这 种 不 确定 性 让 赛事 变 得 如 此 美 
妙 。 这 就 是 统计 学 的 魅力 所 在 。 
民明 显 不 只 是 体育 界 才 这 样 。 也 许 你 希望 找到 街区 最 好 的 餐馆， 或 者 
找 出 谁 是 店 里 最 点 实 的 顾客 。 在 这 种 情况 下 , 你 也 许 不 会 去 为 个 体 进行 分 
类 ,而 是 寻找 那些 从 同类 中 脱颖而出 的 人 或 事 。 本 章 将 讲述 如 何 从 全 体 中 
找 出 满足 多 种 标准 的 集合 ， 以 及 利用 第 识 找 出 蜡 篆 值 。 


一 
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7.1 在 差异 中 村 求 什么 


如 打 只 有 一 个 变量 ， 比 较 起 来 会 很 容易 。 这 栋 房 子 的 后 地 面积 比 万 外 一 栋 要 大 ， 或 者 这 只 猜 
比 太 一 只 猫 要 重 。 如 果 有 两 个 变量 ， 可 能 会 稍微 困难 一 点 ， 但 依旧 是 可 行 的 。 第 一 栋 房 子 的 后 地 
面积 比较 大 , 但 第 二 栋 房 子 的 浴室 数量 更 多 。 第 一 只 猫 更 重 、 毛 更 短 , 而 第 二 只 猫 较 轻 、 毛 较 长 。 

但 如 条 有 一 百 栋 房子 或 者 一 百 只 猫 , 该 怎样 分 类 呢 ? 如 采 每 栋 房子 都 有 更 多 变量 , 例如 卧室 
的 数量 、 后 院 的 面积 还 有 物业 管理 费 , 又 该 怎么 办 ? 这 时 我 们 面 对 的 是 对 象 的 总 数 乘 以 变量 的 总 
数 。 现 在 的 情况 要 国手 多 了 ， 而 这 正 是 我 们 所 关注 的 。 

也 许 你 的 数据 中 包含 多 种 变量 , 但 你 希望 把 所 有 对 象 ( 比如 人 或 地 点 ) 进行 分 组 , 然后 找 出 其 
中 最 出 众 的 或 者 说 异 帝 值 。 你 而 望 看 到 每 一 个 变量 间 的 差异 , 也 布 望 看 到 所 有 变量 间 的 差异 。 两 个 
篮球 运动 员 的 场 均 得 分 可 能 是 天 坏 之 别 , 但 他 们 的 场 均 篮板 、 抢 断 和 出 场 时 间 却 可 能 非常 接近 。 我 
们 需要 找 出 事物 间 的 差异 ， 但 也 不 要 忘记 相似 性 和 背后 的 关联 性 ， 束 和 那些 体育 评论 员 一 样 。 


7.2 在 多 个 变量 间 比 较 


在 面 对 多 个 变量 时 , 主要 的 挑战 在 于 从 哪里 开始 。 如 果 我 们 不 事先 考虑 好 上 日 己 擎 握 的 数据 是 
什么 , 在 面 对 如 此 众多 的 变化 及 子 集 时 就 会 无 所 适 从 。 有 时 候 , 最 好 的 做 法 是 先 一 次 性 观 绎 所 有 
的 数据 ， 那 些 让 你 感 兴趣 的 内 容 日 然 会 为 你 指引 方 癌 。 


7.2.1 热身 


要 想 对 表格 中 的 数据 进行 可 视 化 , 最 直接 的 方法 就 是 一 次 性 把 它们 都 显示 出 来 。 不 过 我 们 可 
以 用 颜色 代 特 数字 来 表示 数值 ， 如 图 7-1 所 示 。 

















列 代表 该 对 象 的 一 个 变量 


单元 格 

每 一 个 单元 格 表现 了 

| 四 表 放 中 的 王 个 数 信 ， 

象 或 观察 的 角度 。 其 颜色 根据 数值 的 


多 少 而 不 同 





图 7-1 热点 图 的 基本 框 染 
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我 们 会 得 到 一 个 与 原始 数据 表格 大 小 相同 的 网 格 , 但 根据 单元 格 颜色 的 不 同 , 很 容易 就 能 找 
较 高 或 较 低 的 数值 。 一 般 来 说 , 深 色 代 表 高 数 伸 ， 浅 色 代 表 低 数值 。 不 过 根据 应 用 场 
景 不 同 ， 这 一 规则 也 有 可 能 会 发 生变 化 。 

在 阅读 热点 图 (heatmap ， 或 者 叫 热点 矩阵 ，heat matrix ) 时 ， 使 用 的 方法 也 与 阅读 表格 时 相 
同 。 我 们 可 以 从 左 到 右 地 阅读 ， 了 解 一 个 对 象 的 所 有 变量 的 数值 ， 也 可 以 只 选择 一 个 变量 ， 了 解 
所 有 对 象 在 该 方面 的 表现 如 何 。 

这 种 布局 可 能 依旧 会 让 人 困惑 ,尤其 是 当 数 据 表 格 非常 庞大 时 .但 有 了 颜色 的 区 分 以 及 排序 ， 
得 到 的 图 表 还 是 能 为 我 们 市 来 很 大 帮助 。 

创建 热点 图 

在 R 里 面 创 建 热点 岁 非 常 简单 。 有 heatmap () 困 数 来 包办 所 有 的 计算 工作 ， 我 们 只 需 选 择 合 
适 的 颜色 ， 然 后 组 织 好 标签 ， 以 便 在 有 多 行 多 列 的 情况 下 保持 多 旋 性 。 换 句 话 说，R 负 责 基 础 框 
架 ， 而 我 们 负责 设计 。 这 本 书 读 到 这 里 ， 这 人 句 话 大 家 应 该 很 耳 熟 了 吧 。 

在 本 例 中 ， 我 们 来 看 一 下 2008 完 季 NBA 球 员 的 大 家 可 以 在 http://datasets. 
flowinedata.com/ppg2008.csv 下 和 载 到 CSV 格 式 。 数 据 共 有 22 列 ， 第 一 列 是 球员 姓名 (Name )， 其 他 
列 则 是 统计 数据 ,例如 PTS ( 场 均 得 分 ) 和 FGP (投篮 命中 率 )。 :可 以 在 R 里 用 read.csv(C) 来 载 
入 数据 。 现 在 让 我 们 看 看 数据 的 前 五 行 ， 以 便 对 数据 的 结构 有 个 概念 ( 见 图 7-2 )。 

bball <- 

read.csv("'http://datasets.flowingdata.com/ppg2008.csv'", 


header=TRUE) 
bbal1[1:5,] 




















R Console 





~ Q 
> bball <- read.csv("http://datasets.flowingdata.com/ppg2008.csv", header=TRUE) 
> bball[1:5,] 

Name G&G MIN PTS FGM FGA FG 

1 Dwyane Wade 79 38.6 30. 
2 LeBron James 81 37. 
3 Kobe Bryant 82 36. 
4 Dirk Nowitzki 81 37. 
5 Danny Granger 67 36. 
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图 7-2 ”前 五 行 数据 的 结构 





现在 这 些 球员 是 按 PTS 由 高 到 低 排 序 的 。 但 我 们 也 可 以 通过 order(0) 旺 数 来 按 任 一 列 排序 
例如 场 均 篮板 数 (TRB ) 或 者 FGP。 
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bball_byfgp <- bballforder(bball$FGP, decreasing=TRUEY,] 


提示 order() 中 的 decreasing 参 数 可 以 指定 是 按 升序 还 是 降序 排列 。 





现在 再 看 看 bba11_byfgp 的 前 五 行 ， 我们 会 发 现 刚才 排名 前 列 的 Dwyane Wade ( 德 怀 恩 韦 
德 )、Lebron James ( 勒 布 朋 :詹姆斯 ) 和 Kobe Bryant ( 科比: 布 莱恩 特 ) 被 换 成 了 Shaquille O’neal 
( 沙 奎 尔 : 奥尼尔 )、Dwight Howard ( 德 怀 特 : 霍华德 ) 和 Pau Gasol ( 保罗 “加 索 尔 ) 在 本 例 中 ， 
我 们 将 根据 PTS 逆 序 排列 。 

bball <- bball[lorder(tbball$PTS, decreasing=FALSE),] 

现在 ,每 一 列 的 名 称 与 CSV 文 件 的 数据 头 是 一 致 的 ， 这 和 我 们 想 要 的 相符 。 不 过 ， 我们 还 希 
望 每 一 行 的 名 称 应 该 是 球员 的 姓名 ， 而 不 是 现在 的 行 号 。 所 以 需要 把 第 1 列 设置 为 行 名称 。 

row.names(bball) <- bbal1$Name 

bball <- bball[l,2:20] 

第 一 行 代 人 码 将 行 名称 改 成 了 数据 块 中 的 第 1 列 。 第 二 行 代 人 码 选 择 了 第 2 列 到 第 20 列 ,并 将 该 子 
集 设置 为 新 的 bba11。 

另外 ,数据 必须 是 矩阵 matrix ) 烙 式 ,而 不 能 是 数据 块 ( data frame ) 格 式 。. 如 采 我 们 在 heatmap 0) 
也 数 中 使 用 数据 块 就 会 报错 。 总 的 来 说 ,数据 块 有 点 像 一 系列 癌 量 的 集合 ,其 中 每 一 列 都 代表 一 
个 不 同 的 度量 。 每 一 列 和 都 可 以 有 不 同 的 格式 ， 例 如 数字 或 者 字符 串 。 而 矩阵 则 通 第 被 用 于 表现 二 
维 空间 ， 而 且 所 有 单元 格 中 的 数据 类 型 必须 保持 统一 。 


bball_ matrix <- data.matrix(bball) 





























提示 很 多 可 视 化 都 涉及 数据 的 收集 和 准备 。 我 们 获得 的 数据 往往 和 需要 的 并 不 完全 相符 ， 
此 大 家 要 有 心理 准备 ， 在 进入 视觉 部 分 之 前 可 能 得 做 一 些 数据 再 加 工 。 


现在 数据 已 经 按 我 们 所 希望 的 进行 了 排序 及 格式 化 , 将 其 放 和 人 heatmap() 里 面 就 能 有 所 收获 
了 。 我 们 把 scale 参 数 指定 为 “column”, 这 是 在 告诉 R 用 每 一 列 的 最 大 值 和 最 小 值 来 定义 颜色 的 
色 阶 ， 而 非 用 整个 矩阵 的 最 大 值 和 最 小 值 。 


bball_heatmap <- heatmap(bball matrix, Rowvy=NA, 
Colv=NA, col = cm.colorst256), scale="column’, margins=c(5,10)) 


你 的 结果 应 该 类 似 于 网 7-3。 我 们 通过 cm.colorsG) 指 定 了 颜色 范 轩 由 青色 ( cyan ) 变 为 洋 
红色 ( magenta )。 这 一 图 数 创 建 了 一 个 16 进 制 的 颜色 辐 量 ， 范 围 默认 由 青 到 洋红 ， 其 中 有 7 个 不 
同 的 色 值 ( 本 例 中 是 256 个 )。 所 以 ， 请 注意 图 中 的 第 3 列 ( 也 就 是 PTS ) 由 洋红 色 开 始 ， 这 表示 
Dwyane Wade 和 Lebron James 在 该 方面 的 数值 是 最 高 的 ,然后 逐渐 变色 ， 到 底部 已 经 变 成 了 较 暗 
的 青色 系 ,， 代 表 该 方面 数值 置 底 的 Allen Iverson 和 Nate Robinson。 我 们 也 可 以 很 快 找到 其 他 洋红 
色 的 单元 格 ， 例 如 篮板 数 ( TRB ) 最 高 的 Dwight Howard 或 者 助攻 (AST ) 最 突出 的 Chris Paul。 
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Dwyane Wade 
LeBron James 
Kobe Bryant 

Dirk Nowitzki 
Danny Granger 
Kevin Durant 
Kevin Martin 

Al Jefferson 
Carmelo Anthony 
Chris Paul 

Chris Bosh 
Brandon Roy 
Antawn Jamison 
Tony Parker 

Joe Johnson 
Amare Stoudemire 
Devin Harris 
Michael Redd 
David West 
Vince Carter 
Caron Butler 
Zachary Randolph 
Ben Gordon 
Stephen Jackson 
Dwight Howard 
Paul Pierce 

Al Harrington 
Yao Ming 

Jamal Crawford 
Jason Terry 
Richard Jefferson 
Deron Williams 
Tim Duncan 
Monta Ellis 

Pau Gasol 

Rudy Gay 

Andre lguodala 
Corey Maggette 
O.J. Mayo 
Richard Hamilton 
John Salmons 
Ray Allen 
LaMarcus Aldridge 
Josh Howard 
Shaquille O'neal 
Maurice Williams 


Chauncey Billups 
Rashard Lewis 
Allen lverson 
Nate Robinson 





图 7-3 按 PTS 排 序 的 默认 热点 图 〈 邦 见 彩 捅 图 7-3 ) 


你 也 许 想 要 换 一 种 颜色 风格 。 只 需要 改动 co1 参 数 即 可 ， 在 我 们 刚才 运行 的 那 段 代 码 中 ， 它 
是 cm.colors(256)。 可 以 输入 ?cm.colors 寻 求 帮 助 ， 看 看 R 都 提供 哪些 颜色 。 比 如 我 们 可 以 用 
看 上 去 更 有 激情 的 颜色 ， 如 图 7-4 所 示 。 


bball heatmap <- heatmaptbbal]l matrTX， 
Rowvy=NA, Colv=NA, €ol = heat.colors(t256), scale="column", 
margins=c(5,10)) 
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图 7-4” 红 -黄色 系 的 热点 图 ( 为 见 彩 插图 7-4 ) 


如 果 你 在 R 中 输入 cm.colors(10) ， 束 会 得 到 一 个 由 青 到 洋红 的 10 个 颜色 的 数组 。 之 后 
heatmapQ 〇 会 目 动 按 线 性 运算 ， 为 各 个 数值 选择 相应 的 闫 色 。 

[1] "#80FFFFFF" *#99FFFFFF" "#B3FFFFFF" "#CCFFFFFF" "#E6FFFFFF" 

[6] "#FFEGFFFF" "#FFCCFFFF" '"#FFB3FFFF" "#FF99FFFF" “#FF8OFFFF' 


这 一 点 很 棱 ， 因 为 我 们 可 以 轻松 地 创建 和 目 己 的 颜色 范围 。 比 如 说 ， 我 们 可 以 去 0to255.com 先 
选择 一 种 基本 色 ， 然 后 再 详细 选择 。 图 7-5 显 示 了 基本 色 为 红色 的 色 阶 。 我 们 可 以 选 出 一 些 颜 色 ， 
由 浅 到 深 ， 然 后 放 到 heatmap CO) 里面 ， 如 图 7-6 所 示 。 这 次 我 没有 让 R 来 创建 颜色 回 量 ， 而 是 定义 
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了 一 个 自己 的 red_colors 变 量 。 


red_colors <- ct"#ffd3cd", "#ffc4bc", “#ffb5ab", 
"#ffa69a", ‘"#ff9789", "#ff8978", "#ffraG7", ‘"#ff6b56", 
"#ff5c45", "#ff4d34") 

bball_heatmap <- heatmaptbball_ matrix, Rowv=NA, 
COIv=NA, col = red_colors, scale="column", margins=c(5,10)) 
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图 7-5”0to255.com 里 面 的 红色 系 色 阶 ( 男 见 彩 插图 7-5 ) 


提示 明智 地 选择 颜色 ， 因 为 它们 也 会 葛 定 你 的 故事 的 整体 基调 。 比 如 说 ， 如 果 你 的 主题 较为 
严肃 ， 可 能 中 性 、 和 柔和 的 色调 会 更 好 ， 而 激昂 、 休 闲 的 主题 则 更 适合 采用 明 充 的 色彩 。 
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图 7-6 ”使 用 了 肯定 义 红色 系 的 热点 图 ( 为 见 彩 插图 7-6 ) 


如 果 你 不 想 自 己 设 定 颜 色 , 也 可 以 使 用 R 的 ColorBrewer 工 具 包 。 这 个 工具 包 不 是 默认 安装 的 ， 
此 如 采 你 没有 的 话 , 就 需要 下 载 并 通过 Package Installer 玉 安装 。ColorBrewer 是 由 制图 师 Cynthia 
Brewer 设 计 的 ， 本 来 用 于 地 图 绘制 , 不 过 它 也 能 帮助 我 们 创建 第 用 的 数据 图 表 。 有 很 多 选项 可 供 
选择 , 例如 各 种 连 乡 色 或 相反 色 的 调 色 盘 以 及 许多 色 阶 等 .本 例 中 我 们 选择 了 人 简单 的 蓝 色 调 色 盘 。 
在 R 中 输入 ?brewer .pal 可 以 得 到 更 多 选项 ， 非 常 好 玩 。 假 设 你 安装 了 RColorBrewer， 输 入 以 下 
代码 就 能 得 到 一 个 蓝 色 系 、9 色 阶 的 热点 图 ， 效 果 如 图 7-7 所 示 。 








7.2 在 多 个 变量 间 比 较 193 


librarytRColorBrewer) 

bball heatmap <- heatmap{bball_ matrix, Rowv=NA, 
Colv=NA, col = brewer.pal(93, “Blues"), 
stale="Column", margins=c(5,10)) 


了 > 访问 http://colorbrewer2.com 以 尝试 ColorBrewer 的 可 交互 版 本 。 你 可 以 在 下 拉 菜 单 里 进行 选 
项 设置 ， 在 样本 地 图 中 看 到 各 种 颜色 主题 的 效果 。 
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图 7-7 “利用 RColorBrewer 作 为 调 色 盘 的 热点 图 ( 男 见 彩 插图 7-7 ) 


图 7-7 还 可 以 再 导入 到 Tllustrator 里 面 继续 优化 。 图 形 方面 不 需要 太 多 修饰 ， 但 我 们 可 以 让 标 
签 更 加 易 读 一 些 、 颜 色 更 加 柔和 一 些 ， 计 图 表 更 加 多 于 浏览 。 


. 
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对 于 标签 来 说 ， 最 好 不 要 用 央 写 。 作 为 篮球 迷 来 说 ,我 知 违 每 一 个 绚 写 痢 代 表 什 么 意思 ,但 
那些 对 这 项 运动 不 太 底 悉 的 人 可 能 会 近 不 看 涉 脑 。 对 于 颜色 ， 我 们 可 以 打开 Tlustrator 的 “颜色 ” 
( Color ) 面板 ， 通 过 调整 透明 度 来 缓和 对 比 度 。 为 单元 格 活 加 边框 也 能 提升 可 辩 识 度 ， 让 图 表 更 
加 易于 从 左 到 右 、 从 上 到 下 地 浏览 。 图 7-8 显 示 了 最 终 完成 的 效 来 。 





NBA 场 均 表 现 数据 
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Source: databaseBasketball 





图 7-8 ”显示 2008 一 2009 赛 季 NBA 前 50 位 得 分 手 场 均 表 现 数据 的 热点 图 
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PP Mike Bostock 在 Protovis 里 也 借用 了 我 的 这 个 例子 ， 大 家 可 以 在 Protovis 的 范例 部 分 找到 。 


视觉 上 两 者 完全 一 样 ,但 他 的 范例 的 交互 效果 更 加 丰富 : 当 鼠 标 移 到 单元 格 上 时 会 出 现 提 示 





7.2.2 ” 相 面 术 


热点 图 的 好 处 在 于 它 能 让 我 们 一 次 性 看 到 所 有 的 数据 , 但 是 这 样 一 来 , 关注 点 总 会 洛 在 单个 
的 点 上 。 我 们 可 以 很 快 找 出 场 均 得 分 或 者 篮板 数 的 高 低 , 但 要 想 将 某 位 球员 和 邦 一 位 球员 进行 综 
合 比较 ， 却 存在 看 很 大 难度 。 

有 些 时 候 , 我 们 不 希望 让 每 个 对 象 部 被 各 种 指标 切 散 ,而 是 希望 把 它们 当做 一 个 个 的 整体 来 
观察 。 切 尔 详 夫 脸谱 图 ( Chernoff Faces ) 就 能 满足 这 种 需求 。 该 方法 并 不 是 业界 通用 的 标准 方法 ， 
而 且 很 可 能 会 让 那些 普通 读者 一 头 雾 水 。 但 尽管 如 此 , 切 尔 诺 夫 脸 谱 图 还 是 经 党 能 体现 出 其 价值 
的 。 男 外 ， 它 对 于 数据 迷 来 说 非 第 有 趣 ， 我 想 这 个 理由 就 足够 了 。 

切 尔 旋 夫 脸谱 图 的 关键 在 于 , 它 会 根据 数据 集中 的 数字 将 多 个 变量 一 次 性 展现 在 人 上 脸 的 各 个 
部 位 上 ， 例 如 耳 条 、 涉 发 、 眼 睛 、 锚 子 等 ( 见 图 7-9 )。 我 在 此 假设 读者 在 现实 生活 中 都 能 轻易 辩 
识 人 的 面部 特征 ， 这样 当 它 们 在 表现 数据 时 ， 大 家 才 可 能 识别 出 那些 微小 的 差别 。 这 是 个 比较 冒 
险 的 假设 ,但 我 相信 大 家 都 有 这 种 能 力 。 

大 家 在 后 面 的 例子 中 将 会 看 到 , 较 大 的 数值 会 以 更 多 的 头发 或 更 大 的 眼睛 的 形式 来 出 现 ， 而 
较 小 的 数值 则 会 对 面部 特征 进行 收缩 。 除 了 斥 才 大 小 以 外 , 我 们 还 可 以 调整 请 如 嘴 层 曲线 或 脸型 
等 其 他 面部 特征 。 
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图 7-9 ” 切 尔 诺 夫 脸 谱 图 的 基本 框架 
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创建 切 尔 诺 夫 脸谱 图 

让 我 们 回 到 之 前 的 篮球 数据 , 也 就 是 2008 一 2009 赛 季 NBA 前 50 位 得 分 手 的 统计 成 绩 。 每 一 位 
球员 都 会 有 一 张 脸谱 。 不 用 慨 张 一 一 你 不 必 手 动 去 画 这 些 脓 。R 中 的 ap1pack 提 供 了 faces (也 
数 ， 它 能 帮助 我 们 得 到 想 要 的 结 

如 果 你 还 没有 这 个 工具 包 , 可 以 通过 install.packages() 来 安装 ,或 者 利用 Package Installer 
选项 来 完成 。 这 个 工具 包 的 名 称 ap1lpack 代 表 的 意思 是 another plotting package ( 另 一 个 绘图 工具 

















librarycaplpack) 


说 明 最 新 版 本 的 ap1pack 能 让 我 们 通过 faces() 函数 来 添加 颜色 。 在 本 例 中 ， 我 们 将 nco1ors 
设置 为 0， 也 就 是 只 使 用 了 黑色 和 白色。 输入 ?faces 可 以 查阅 如 何 使 用 颜色 向 量 ， 其 方法 
和 之 前 热点 图 例子 中 的 用 法 是 一 样 的 。 


在 之 前 创建 热点 图 时 ， 你 应 该 已 经 载 人 了 篮球 数据 。 如 果 没 有 的 话 ， 再 次 使 用 read.csv0) 
通过 URL 来 百 接 载 人 数据 。 

bball <- read.csvC'http://datasets.f lowingdata.com/ppg2008.csv", 

header=TRUE) 


载 入 了 工具 包 和 数据 之 后 ， 就 可 以 直接 用 faces 0O 〇 函数 来 生成 切 尔 诺 夫 脸谱 图 了 ,结果 如 图 
7-10 所 示 。 


faces(tbball[,.2:1]6], ncolors=0) 
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图 7-10 ”默认 生成 的 切 尔 诺 夫 脸谱 图 
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算 上 球员 的 姓名 ， 我 们 的 数据 集中 总 共有 20 个 变量 。 但 是 ap1pack 提 供 的 faces () 图 数 只 文 
持 最 多 15 个 变量 , 因为 只 有 这 么 多 脸 部 特征 能 够 被 改变 。 这 就 是 为 什么 我 们 要 将 集合 缩小 到 从 第 
2 列 到 第 16 列 。 

每 张 脸谱 都 代表 什么 意思 呢 ?”faces (0) 函数 会 配合 数据 集中 各 列 的 顺序 ,按照 以 下 顺序 来 修 
改 面部 特征 。 

(1) 脸庞 的 长 度 

(2) 脸庞 的 宽度 

(3) 脸型 

(4) 嘴唇 的 高 度 

(5) 嘴唇 的 宽度 

(6) 嘴角 上 扬 的 曲线 

(7) 眼睛 的 高 度 

(8) 眼睛 的 宽度 

(9) 头发 的 高 度 

(10) 头发 的 宽度 

(11) 发 型 

(12) 鼻子 的 高 度 

(13) 民 子 的 宽度 

(14) 耳 朱 的 壳 度 

(15) 耳 东 的 高 度 

所 以 , 脸庞 的 长 度 代 表 的 是 赛季 出 场 的 次 数 ， 而 嘴 展 的 高 度 则 代表 场 均 投篮 命中 的 次 数 。 由 
于 每 张 脸 都 没有 对 应 的 姓名 , 这 张 图 表 似 乎 没 多 大 用 处 , 不 过 我 们 还 是 能 看 出 头 几 名 球员 各 方面 
都 表现 比较 全 面 ， 而 第 7 名 球员 的 头发 相对 很 宽 ， 这 表示 他 每 场 投 中 的 三 分 球 较 多 。 











提示 ”如果 对 应 的 个 体 很 多 ， 对 其 进行 分 类 可 能 会 便于 对 脸谱 的 浏览 。 比 如 说 ， 我 们 可 以 根据 
球场 上 的 位 置 来 为 这 些 脸 谱 进 行 分 类 : 后 卫 、 前 锋 和 中 锋 。 


在 faces() 中 使 用 1abe1s 参 数 来 为 脸谱 添加 姓名 ,结果 如 图 7-11 所 示 。 

faces(bball[,2:16], labels=bballiName) 

这 样 看 上 去 好 多 了 。 现在 我 们 可 以 看 到 哪 张 脸 对 应 哪 位 球员 。 要 想 找 出 控 球 后 卫 , 我 们 可 以 
从 Chris Paul ( 克 里 斯 .保罗 ) 开始 ， 找 寻 和 他 脸谱 相似 的 球员 ， 例 如 Devin Harris ( 德 文 . 哈里 
斯 ) 或 者 Deron Willams ( 德 隆 . 威廉 姆 斯 )。 不过, 右 下 角 的 Chauncey Billups( 虽 西 ， 比 卢 普 斯) 
也 是 一 位 控 球 后 卫 , 但 他 的 腔 看 上 去 与 其 他 控 球 后 卫 不 太一 样 。 他 的 头发 更 局 ， 踪 展 更 罕 ， 这 些 
表示 他 的 罚球 命中 率 较 高 ， 而 场 均 投篮 次 数 较 少 。 
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图 7-11 市 有 球员 姓名 的 切 尔 详 夫 脸谱 图 


为 了 让 图 表 更 加 易 读 , 我 们 可 以 加 大 各 行 之 间 的 距离 , 或 者 至 少 提 供 一 段 描 述 , 说明 哪些 面 
部 特征 代表 哪些 数据 ， 如 图 7-12 所 示 。 通 常情 况 下 ， 我 会 用 一 张 实际 图 例 来 进行 说 明 ， 但 我 们 用 
到 的 面部 特征 实在 太 多 ， 在 一 张 脸 上 画 那 么 多 箭头 实在 是 惨不忍睹 。 





提示 在 画面 中 留 出 一 些 空白 区 域 ， 会 让 图 表 更 加 易 读 ， 尤 其 是 在 要 看 和 评估 的 内 容 很 多 的 
时 候 。 














再 次 申明 , 切 尔 诺 夫 脸 谱 图 的 价值 会 根据 数据 集 与 受众 群体 的 不 同 而 不 同 ,， 因此 大 家 可 以 自 
行 决 定 是 否 使 用 这 一 方法 。 还 有 一 点 是 ， 那些 不 太 熟 悉 切 尔 诺 夫 脸谱 图 的 人 总 喜欢 “以 貌 取 人 ”， 
他 们 认为 代表 Shaquille ONeal 的 脸谱 似乎 就 应 该 与 他 本 人 类 似 。 但 我 们 绝 大 多 数 人 都 知道 
O'Neal 可 是 有 史 以 来 体型 最 大 的 篮球 运动 员 之 一 。 

用 同样 的 方式 ,我 又 设计 了 美国 犯罪 情况 的 切 尔 诺 夫 脸谱 图 ， 如 图 7-13 所 示 。 居 然 有 人 因为 
es ded ne 有 过 这 一 点 ， 因 为 对 我 来 说 ,修改 
某 个 面部 特征 就 和 修改 某 个 柱 形 的 长 度 一 样 。 不 过 这 个 问题 倒 的 确 值 得 考虑 一 下 。 
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NBA 场 均 表现 数据 


我 们 使 用 了 一 种 被 称 为 男 尔 诺 大 腔 谱 图 的 方式 来 呈 击 2008 一 2009 赛 季 部 分 球员 的 统计 数据 。 
这 些 脸 谱 并 不 是 他 们 真正 的 脸型 ， 而 是 根据 各 项 数据 的 高 低 进 行 调 整 后 所 得 。 球 员 按 场 均 得 分 排序 。 
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嘴唇 的 宽度 - 场 均 投篮 次 数 头发 的 宽度 - 场 均 三 分 球 命中 次 数 ” 耳 条 的 高 度 - 助攻 数 
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图 7-12”2008 一 2009 赛 和 下 NBA 前 50 位 得 分 手 的 切 尔 诺 夫 脸谱 图 





提示 在 设计 图 表 时 ， 要 站 在 首 通 读者 的 角度 考虑 问 题 。 首 通读 者 并 不 像 我 们 那样 熟悉 各 种 可 
视 化 方式 ， 对 数据 的 理解 也 不 如 我 们 深刻 ， 因 此 作为 故事 的 讲述 者 ， 我 们 必须 承担 起 解 
释 说 明 的 责任 。 


美国 的 犯罪 脸谱 
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图 7-13 ”美国 犯罪 率 统 计 ， 每 张 脸谱 代表 一 个 州 





7.2.3 星光 灿烂 
除了 用 脸谱 来 表现 多 变量 数据 之 外 ， 我 们 还 可 以 遵循 同样 的 概念 将 图 表 抽 象 为 另 一 种 形状 。 
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我 们 不 再 修改 面部 特征 ， 而 是 直接 修改 形状 来 表现 不 同 的 数据 值 。 这 就 是 星 图 ( star chart ) 的 制 
作 原 理 ， 它 也 被 称 为 雷达 图 ( radar chart ) 或 者 蜘蛛 图 ( spider chart )。 

如 图 7-14 所 示 ， 我 们 可 以 绘制 多 条 轴 ， 每 一 条 轴 代 表 一 个 变量 ， 由 正中 心 开 始 ， 等 距 平 分 圆 
周 摆 放 。 正 中 心 表示 各 个 变量 的 最 小 值 ， 而 轴 末 端的 终点 代表 最 大 值 。 在 绘制 图 表 时 ,在 每 个 变 
量 的 终点 和 下 一 条 轴 的 终点 之 间 还 需要 绘制 一 条 连接 线 。 最 后 得 到 的 图 表 就 好 像 一 颗 星 星 一 样 
(或 者 说 像 雷 达 或 蜂 蛛 网 )。 

















轮 辐 
到 中 心 的 长 度 代表 该 变量 的 值 ， 
每 一 根 轮 辐 代表 一 个 变量 


连接 线 


方便 观察 所 有 变量 和 其 他 变量 
之 间 的 关系 





图 7-14” 星 图 的 基本 框架 


我 们 也 可 以 在 一 幅 星 图 里 表现 多 个 对 象 , 但 如 有 果 数 量 稍 多 就 会 过 于 杂乱 ,导致 故事 没 法 讲 清 
楚 。 所 以 最 好 还 是 坚持 用 一 个 星 图 表现 一 个 对 象 ， 这 样 更 便于 比较 。 

创建 星 图 

现在 让 我 们 继续 使 用 图 7-13 用 到 的 犯罪 数据 ， 来 看 看 星 图 的 表现 手法 会 有 哪些 不 同 。 首 先 还 
是 在 R 中 载 和 数据 。 

crime <- read.csv('"http://datasets.flowingdata.com/ 

crimeRatesBySstate-formatted.csv") 


然后 就 可 以 直接 创建 星 图 了 ， 和 创建 切 尔 诺 夫 脸 谱 图 非常 类 似 。 我 们 用 到 的 是 R 中 已 封装 好 
的 stars() 图 数 。 


starsCcrime) 
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默认 的 图 表 如 图 7-15 所 示 。 和 希望 这 幅 图 不 会 冒犯 任何 人 人。 自然， 每 个 州 的 标签 尚 人 寺 添加 ， 此 
外 还 需要 一 个 图 解 ( key )， 以 便 了 解 每 一 条 轴 所 代表 的 意义 。 和 faces 0 一样， 这 些 轴 肯 定名 循 
着 某 种 顺序 , 但 我 们 无 法 知道 第 一 个 变量 是 从 哪里 开始 的 。 所 以 让 我 们 一 次 搞定 这 些 内 容 。 别 忘 
了 可 以 把 第 一列 移动 到 J 了 名称 上 去 ,就 和 热点 图 中 我 们 所 做 的 一 样 。 此 外 ,还 可 以 把 flip.1abels 
设置 为 FALSE， 因 为 我 们 不 希望 标签 影响 到 高 度 。 结 果 如 图 7-16 所 示 。 


row.names(Ccrime) <- crimes$state 
crime <- crime[,2:7] 
stars(crime, flip.labels=FALSE, key.loc = c(15, 1.5)) 








图 7-15 ”显示 各 州 犯罪 情况 的 默认 星 图 
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图 7-16 ”添加 了 标签 和 说 明 的 星 图 





现在 更 容易 辨别 各 州 的 差别 和 相似 之 处 了 。 在 切 尔 详 夫 脸谱 图 中 ,哥伦比亚 特区 ( District of 
Columbia ) 看 上 去 就 像 一 个 大 眼睛 小 妖 ， 而 在 星 图 中 我 们 看 到 ， 尽 管 它 某 些 类 型 的 罪案 发 生 率 较 
高 ， 但 强奸 和 入 室 盗 窃 的 发 生 率 还 是 相对 较 低 的 。 我 们 也 很 容易 找到 那些 犯罪 率 相 对 较 低 的 州 ， 
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例如 新 罕 布什 和 尔 州 (New Hampshire ) 和 罗 德 品 州 (Rhode Island )。 而 还 有 一 些 州 ， 例 如 北 卡 罗 
来 纳 ( North Carolina )， 只 有 某 单 一 类 型 的 罪 宁 发 生 率 较 高 。 


对 于 这 套数 据 来 说 , 我 对 这 种 格式 已 经 比较 满意 了 。 不 过 它 还 有 两 种 变 体 ,也 许 大 家 会 布 户 





尝试 。 第 一 种 将 所 有 数据 部 限制 在 了 圆 形 的 上 半 部 分 ， 如 图 7-17 所 示 。 


starstcrime, flip.labels=FALSE, key.loc = 
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图 7-17 ”将 各 轴 限 制 在 上 半圆 的 星 图 
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第 二 种 变 体 则 体现 了 各 个 而 形 的 长 度 ， 而 不 只 是 各 轴 终 点 的 位 置 ， 如 图 7-18 所 示 。 这 种 图 表 
其 实 已 经 不 是 星 图 了 ， 而 是 南 丁 格 尔 图 (也 叫 极 坐标 区 图 ，polar area diagram )， 不 过 大 家 明白 意 
思 就 行 。 如 果 你 选择 这 种 表现 形式 ,可 能 需要 尝试 使 用 不 同 的 颜色 主题 ， 而 不 是 默认 的 这 种 怪异 
颜色 。 


stars(crime, flip.labels=FALSE, key.loc = C(19，1.5)7，draw.segments=TRUEy 
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图 7-18 ” 南 丁 格 尔 图 显示 的 犯罪 率 ( 男 见 彩 插图 7-18 ) 


. 
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怠 像 我 刚才 所 说 ， 我 对 图 7-16 所 示 的 那 种 原始 格式 已 经 很 满意 了 ， 所 以 可 以 把 它 导 人 到 
Illustrator 里 而 做 一 些 优化 。 这 幅 图 表 并 不 需要 太 多 修改 工作 。 在 各 行 之 间 略 微 增加 空 日 区 域 可 以 
减少 标签 引起 的 上 收 义 ,为 外 可 以 把 说 明 挪 到 顶端 ,让 读者 一 开始 就 知道 要 阅读 的 内 容 ( 见 图 7-19 )。 
其 他 的 就 没什么 了 。 


美国 的 犯罪 情况 


如 何 阅读 

更 长 的 轮 辐 表 示 该 州 相 应 类 型 的 
罪案 发 生 率 较 高 ， 较 短 的 轮 辐 表 
示 该 类 型 的 罪案 发 生 率 较 低 
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图 7-19 ”显示 各 州 犯罪 率 的 系列 星 图 
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7.2.4 ”平行 前 进 





星 图 和 切 尔 诺 夫 脸 谱 图 能 方便 地 找 出 各 个 对 象 与 同类 之 间 的 差异 ,但 它们 却 很 难 描 

ee et 的 关系 。1885 年 由 Maurice d’Ocagne 发 明 的 平行 坐标 图 能 帮 我 们 解决 这 个 
问题 。 

如 图 7-20 所 示 ， 我 们 将 多 条 轴 平 行 放 置 。 每 条 轴 的 顶端 表示 该 变量 的 最 大 值 ， 底 端 表 示 

最 小 值 。 对 于 每 个 对 象 来 说 ， 会 出 现 一 条 由 左 到 右 的 线条 ， 根 据 各 个 变量 数值 的 不 同 而 上 下 
浮动 。 














连接 线 
每 个 对 象 部 有 一 根 线 条 。 可 在 多 
个 对 多 间 导 找 共 同 的 变化 趋势 


对 应 的 标 度 
每 个 变量 的 
轴线 都 由 最 
小 值 延伸 到 
最 大 值 


各 变革 的 多 条 纳 相 互 平行 放 兽 ， 以 便 找 出 各 变 贡 问 的 关系 








图 7-20 “平行 坐标 图 的 基本 框架 


假设 我 们 用 之 前 的 篮球 数据 来 绘制 这 种 图 表 。 为 了 倘 单 起 见 ， 我 们 只 按 顺 序 绘制 得 分 、 篮 板 
和 犯规 数量 。 如 末 有 一 位 球员 是 顶级 得 分 手 , 但 抢 篮 板 能 力 很 绊 ， 又 喜欢 犯规 ， 那 么 在 平行 坐标 
图 中 ， 该 球员 的 线条 就 会 一 开始 很 高 ， 然 后 降低 ， 然 后 再 次 升 高 。 

当 我 们 绘制 更 多 对 象 时 ， 这 一 方法 就 能 帮助 我 们 找 出 群 组 和 趋势 的 变化 。 在 下 面 的 例子 中 ， 
我 们 将 用 平行 坐标 图 表现 来 日 闫 国 国家 教育 统计 中 心 的 数据 。 
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创建 平行 坐标 图 

从 可 交互 方面 来 看 ， 绘 制 平 行 坐标 图 有 多 种 选择 。 如 果 想 创建 目 定 义 图 形 ， 我 们 可 以 在 
Protovis 里 面 构 建 , 或 者 把 数据 载 人 到 诸如 GGobi 这 样 的 实验 性 工具 中 。 这些 方法 可 以 让 我 们 过 滤 
出 并 高 亮 显示 目 己 感 兴趣 的 数据 点 。 不 过 ,我 还 是 倾向 于 绘制 静态 的 平行 坐标 图 ， 因 为 这 样 可 以 
一 次 性 比较 各 种 不 同 的 过 滤 结 果 。 如 果 是 可 交互 版 本 , 我 们 就 只 能 得 到 一 张 图， 而 且 如 果 在 一 个 
地 方 显示 一 大 堆 高 之 的 结果 ， 会 很 难看 清 内 容 。 























了 > 访问 http://sgobi.org 免 费 下 载 GGobi。 


第 一 步 想 必 大 家 部 知道 了 。 在 开始 进行 可 视 化 之 前 ， 我 们 需要 数据 。 在 R 中 用 read.csvQO 
来 载 人 我 们 的 教育 数据 。 

education <- read.csv("http://datasets.f lowingdata.com/education.csv'", 

header=TRUE) 

education[1:10,] 


数据 共有 7 列 。 第 一 列 是 各 州 的 名 称 ， 其 中 “United States” 是 全 国平 均 数据 。 其 后 3 列 依次 
是 各 州 高 中 生 在 阅读 、 数 学 和 写作 各 科目 的 SAT 平均 得 分 。 第 5 列 是 各 州 高 中 毕业 生 参 加 SAT 考 
试 的 百分比 ， 最 后 2 列 则 是 各 州 的 高 中 毕业 和 后 就 业 率 和 高 中 生 辍 学 率 。 我 们 感 兴趣 的 是 这 些 变 量 
是 否 相 互 关联 ， 以 及 是 否 存 在 任何 明确 的 分 组 。 比 如 说 ， 那些 高 辍学 率 的 州 是否 SAT 的 平均 得 分 
也 会 较 低 ? 

R 本 身 并 不 支持 直接 生成 平行 坐标 图 , 但 lattice 工 具 包 可 以 。 我 们 先 载 入 该 工具 包 ( 如 果 没 有 
该 工具 包 ， 请 先 安装 )。 

11brary(1attTcey] 

很 好 ， 现 在 束 人 简单 了 。lattice 工 具 包 提供 了 一 个 paralle1Q 〇 孙 数 ， 可 以 耻 接 使 用 。 

parallel(education) 

这 将 生成 如 图 7-21 所 示 的 图 表 。 很 好 ,但 这 实际 上 没什么 用 。 在 图 上 有 太 多 的 线条 ， 而 且 变 
量 是 从 上 到 下 放置 的 ， 不 是 从 左 到 右 。 现 在 这 张 图 看 上 去 就 像 是 彩虹 色 的 意大利 面 。 

要 怎 样 来 修改 这 幅 平 行 坐标 图 才能 从 中 获得 信息 呢 ? 首 移 , 我 们 应 该 将 它 横 过 来 放置 。 当 然 
这 并 不 是 一 条 便 性 规则 ， 只 是 个 人 喜好 问题 , 但 从 左 到 右 的 平行 坐标 看 上 去 明显 更 符合 习惯 ， 如 
图 7-22 所 示 。 


parallel(education, horizontal.axis=FALSE) 









































GD SAT 曾 先后 指 学 术 能 力 考 试 ( Scholastic Aptitude Test ) 和 学 术 评 佑 测试 ( Scholastic Assessment Test )， 但 现在 
并 无 确切 的 含义 。 它 可 以 说 是 美国 高 中 生 的 “高 考 ”"， 但 高 中 生 能 否 就 恋 四 年 制 大 学 ， 并 不 仅仅 取决 于 SAT 的 
分 数 高 低 。 
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图 7-21 ”用 lattice 工 具 包 生成 的 默认 平行 坐标 图 
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reading writing percent_ graduates sat pupil staff_ ratio dropout_rate 
图 7-22 水平 放置 的 平行 坐标 


我 们 也 不 需要 州 名 那 一 列 ， 这 是 因为 : 第 一 、 州 名 并 不 是 数值 ; 第 二 、 每 个 州 的 名 字 部 不 相 
同 。 现 在 把 线条 的 颜色 都 改 为 黑色 一 一 我 很 喜欢 颜色 , 但 现在 也 太 多 了 上 点。 执行 以 下 代码 , 我们 
就 会 得 到 图 7-23。 
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parallel(education[,2:7], horizontal.axis=FALSE, col="#000000") 
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writing percent graduates_sat pupil_staff_ratio dropout rate 
图 7-23 ”简化 后 的 平行 坐标 


现在 看 上 去 好 些 了 了。 从 阅读 、 数 学 到 写作 科目 的 线条 很 少 相 互 交 错 ， 儿 乎 是 平行 前 进 的 。 这 
表示 那些 阅读 成 绩 好 的 州 ， 同 样 数学 和 写作 的 成 绩 也 会 较 好 。 与 之 类 似 , 阅读 成 绩 较 差 的 州 在 数 
学 和 写作 方面 也 不 尽 如 人 意 。 

从 SAT 成 绩 继 续 往 右 ， 在 各 州 的 SAT 考 试 参加 率 这 里 ， 有 趣 的 事情 发 生 了 。 看 上 去 似乎 在 那 
些 SAT 平 均 得 分 较 高 的 州 ， 参 加 SAT 考 试 的 学 生 却 并 不 占 多 数 。 而 SAT 平 均 得 分 较 低 的 州 情况 却 
下 相反。 我 对 教育 领域 并 不 算 太 熟悉 ,但 我 猪 这 是 因为 有 些 州 里 每 个 高 中 毕业 生 都 参加 了 SAT 考 
试 ， 而 在 其 他 州 里 ， 如 果 学 生 不 想 上 大 学 ， 他 们 就 不 会 参加 SAT 考 试 。 所 以 ， 如 果 要 求 那 些 对 考 
试 结果 并 不 关心 的 学 生 去 参加 考试 ， 平均 分 上 自然 就 会 被 拉 低 了 。 

我 们 可 以 加 入 一 些 对 比 色 , 让 这 一 点 体现 得 更 加 明显 。 在 parallel10Q 〇 少数 中 ,可 以 通过 col 
参数 来 完全 控制 颜色 。 在 之 前 ， 我们 只 用 了 一 种 颜色 (#000000 )， 但 也 可 以 向 它 传递 一 个 颜色 
数组 ， 给 每 一 行 数据 设 定 一 个 颜色 值 。 现 在 让 我 们 将 阅读 得 分 排名 前 50% 的 州 设置 为 黑色 ， 将 它 
们 下 面 的 那些 州 设置 为 灰色 。 首 和 完 用 summary 〇 来 找到 教育 数据 中 阅读 科目 得 分 的 中 位 数 。 在 R 
中 输入 summary (education), 它 会 返回 所 有 列 的 状态 摘要 ,我 们 很 容易 就 能 发 现 , 阅读 (reading ) 
科目 得 分 的 中 位 数 是 523。 


























state reading math writing 
Alabama 1] Min. :466.0 MTn， :451.0 Min. :455.0 
Alaska :1 1ist Qu.:497.8 lst QU.:505.8 1st Qu.:490.0 
Arizona 1 Median :523.0 Median :525.5 Median :510.0 
Arkansas ] Mean :533.8 Mean :538.4 Mean :520.8 


California: 1 3rd Qu.:571.2 3rd Qu.:571.2 3rd Qu.:557.5 
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Colorado : 1 Max， :610.0 Max. :615.0 Max. :588.0 


(Other) :46 

percent graduates_ sat pupil_staff ratio dropout_rate 
Min. : 3.00 MTn. : 4.900 MTn. :-1.000 
lst Qu.: 日 ,73 lst QU.: 6.800 lst Qu.: 2.950 
Median :34.00 Median : 7.400 Median : 3.950 
Mean :37.35 Mean : 7.729 Mean  : 4.079 
3rd Qu.:66.25 3rd Qu.: 8.150 3rd Qu.: 5.300 
Max. :90.00 Max. :12.100 Max. : 7.600 





现在 吉 历 数据 的 每 一 行 ， 检查 它 是 大 于 还 是 小 于 该 中 位 数 ， 并 指定 相对 应 的 闫 色 。c CO) 指令 
创建 了 一 个 空 的 回 量 ， 每 次 循环 都 会 往 其 中 添加 一 个 值 。 

reading_colors <- cO) 

for Ci in 1l:length(education$state)) { 


if Ceducation$reading[i] > 523) { 
col <- "#000000" 

} else { 
Col <- “ 基 人 CCCEEC 


} 


reading_colors <- creading_colors, col) 


} 
然后 将 reading_colors 数 组 传递 到 parallel1CO) 里 面 ， 而 不 是 一 个 单独 的 “#000000”。 这 
会 让 我 们 得 到 图 7-24， 从 中 可 以 很 容易 地 看 出 由 高 到 低 的 大 转移 。 


parallel(teducation[,2:7], horizontal.axis=FALSE, col=reading colors) 











reading percent_graduates_sat pupil_staff_ratio dropout_rate 








图 7-24 阅读 成 绩 较 好 的 州 被 高 亮 显 示 
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那么 在 辍学 率 方面 , 情况 又 是 如 何 呢 ? 我 们 可 以 对 辍学 率 进行 与 阅读 得 分 相同 的 处 理 ， 只 不 
过 这 次 用 第 三 个 四 分 位 数 ， 而 非 中 位 数 。 这 个 四 分 位 数 是 53.3%。 再 次 ,我 们 过 有 历 每 一 行 数据 ， 只 
不 过 这 次 检查 的 是 辍学 率 ， 而 非 阅 读 科 目的 平均 得 分 。 

dropout colors <- c(t) 

for Ci in l:length(education$state)) { 





if (education$dropout_rate[i] > 5.3) 1{ 
col <- "#000000" 
} else { 
CO <- "#CCCCCC" 
} 
dropout_colors <- ctdropout_ colors, col) 
} 


parallel(education[,2:7], horizontal.axis=FALSE, col=dropout_ colors) 
图 7-25 显 示 了 得 到 的 结果 ， 这 次 的 效果 不 如 前 一 个 图 表 那 样 引 人 注目 。 从 视觉 上 来 看 ， 在 所 
有 变量 中 并 没有 明显 的 分 组 趋同 。 








reading writing percent_graduates sat pupil staff_ratio dropout_rate 





图 7-25 ”辍学 率 较 高 的 州 被 高 亮 显 示 


大 家 也 可 以 在 日 己 感 兴趣 的 方面 进行 更 多 的 探索 。 现 在 让 我 们 回 到 图 7-24 并 进行 优化 。 美 化 
标签 可 以 让 它们 更 加 明显 。 或 者 加 入 一 些 颜 色 来 代替 单纯 的 灰 度 ? 或 者 加 入 一 段 简短 的 说 明 ， 以 
解释 为 什么 50% 的 州都 锌 高 完 显 示 ? 最 终 得 到 的 绪 末 将 如 图 7-26 所 示 。 











7.3 减少 维度 213 


美国 的 教育 


SAT 旁 试 中 阐 读 科目 平均 得 分 磅 厨 的 州 ， 一役 在 数学 及 瑟 作 科目 也 会 得 到 较 高 的 分 数 。 
然而 ， 这 计 不 意味 着 这 些 州 的 学 生 绪 得 了 更 好 的 教育 。 它 似 平 只 能 指出 这 些 州 有 多 大 
比例 的 毕业 生 傅 加 了 SAL 沽 试 。 


SAT 阅 读 SAT 数 学 SAT 写 作 ”参加 SAT 的 毕 高 中 毕业 
科目 均 分 。 科目 均 分 科目 均 分 。 业 生 百分比 生 就 业 率 


阅读 科目 平均 得 ， 
分 前 50% 的 州 


中 位 数 ， 


阅读 科目 平均 得 
分 后 50% 的 州 


最 小 值 


Source: National Center jor Education Statistics 











图 7-26 ”关于 SAT 得 分 的 平行 坐标 图 表 ( 男 见 彩 插图 7-26 ) 
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当 我 们 使 用 切 尔 诺 夫 脸 谱 图 或 平行 坐标 图 时 , 主要 的 目的 是 去 减少 。 我 们 希望 在 数据 集 或 者 
全 体 中 找 出 不 同 的 分 组 。 这 里 的 挑战 在 于 , 我 们 并 不 总 是 清楚 从 哪里 开始 观察 这 些 脸谱 或 者 连接 
线 ， 所 以 如 果 能 根据 某 些 标准 将 对 象 划 分 为 不 同 的 群集 ， 事 情 就 会 容易 得 多 。 这 就 是 多 维 量 法 
( MultiDimensional Scaling，MDS ) 的 目的 之 一 。 将 所 有 事物 都 考虑 进来 ， 然 后 在 图 表 上 将 相互 
更 类 似 的 对 象 靠 近 放 置 。 

这 一 主题 内 容 极为 丰富 , 专门 介绍 这 一 主题 的 书籍 就 有 很 多 , 因此 要 具体 解释 起 来 妨 怕 会 过 
于 技术 化 。 为 了 简单 起 见 , 我 会 只 保留 在 概念 层面 ,把 背后 的 算法 暂时 放 在 一 边 。 不 过 话 又 说 回 
来 ,多维 量 法 是 我 在 读 研 时 学 到 的 第 一 个 概念 ， 如 采 你 希望 深入 了 人 解 统计 学 的 话 , 它 痛 后 的 理论 
的 确 值 得 花 时 间 好 好 学 习 。 


























假设 你 现在 和 万 两 个 人 在 一 个 正方 形 的 空房 间 内 。 你 的 任务 是 根据 这 两 个 人 的 吴 高 安排 他 们 
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站 在 合适 的 位 置 。 他 们 的 里 高 越 接近 ,就 应 该 彼此 徘 得 越 近 ， 如 果 里 高 相差 越 远 , 彼此 的 距离 就 
应 该 拉 得 更 大 。 其 中 一 人 很 矮 , 而 另 一 人 很 高 。 这 两 人 应 该 怎么 站 ? 他 们 应 该 站 在 相对 的 角 洲 里， 
为 他 们 的 号 高 是 截然 相反 的 。 

现在 又 进来 了 一 个 人 , 他 的 吴 高 中 等 。 根 据 我 们 的 安排 规则 ,这 个 新 来 的 应 该 站 在 房间 的 中 
心 ， 就 在 之 前 两 个 人 的 正中 间 。 他 与 高 个 子 的 时 局 差距 和 矮 个 于 是 一 样 的 ， 因此 他 和 两 个 人 的 距 
离 彼 此 相等 。 与 此 同时 ， 融 个 子 和 矮 个 子 之 间 依 然 保 持 最 大 距离 。 

好 ,现在 再 引入 另 一 个 变量 : 体重 。 你 知道 所 有 这 三 个 人 的 号 高 和 体重 。 矮 个 子 和 中 等 个 子 
的 体重 完全 相等 ， 而 高 个 子 的 体重 最 轻 。 那 么 ,根据 吴 高 和 体重 ， 你 如 何 安排 这 三 个 人 在 房间 中 
的 位 置 ? 如 果 保 持 前 两 个 人 ( 矮 个 于 和 局 个 子 ) 的 对 角 位 置 ,那么 第 三 个 人 《中 等 个 子 ) 就 应 该 
癌 矮 个 子 徘 近 ， 因 为 他 们 的 体重 是 相同 的 。 

现在 你 理解 我 们 的 安排 规划 了 吗 ? 两 个 人 越 相似 , 他 们 彼此 间 的 距离 就 应 该 越 徘 近 。 在 这 个 
简单 的 例子 里 ， 你 只 有 3 个 人 和 2 个 变量 , 很 容易 人 工 计算 出 结果 来 。 但 如 果 有 50 个 人 ,而且 你 需 
要 根据 5 种 标准 来 安排 他 们 在 房间 里 的 位 置 ， 丈 会 琼 手 得 多 。 而 这 束 是 多 维 量 法 的 用 武之 地 。 



























































利用 多 维 量 法 
用 实例 来 理解 多 维 量 法 会 容易 得 多 ,所 以 让 我 们 再 次 使 用 之 前 的 教育 数据 来 看 看 。 自 先 还 是 
在 R 中 载 人 数据 。 


education <- 
read.csv('"http://datasets.flowingdata.com/education.csy", 
header=TRUE) 


别 去 了 ， 每 个 州都 有 一 行 ， 其 中 包括 类 国 全 国平 均值 和 哥伦比亚 特区 。 每 个 州 部 有 6 个 变量 : 
阅读 、 数 学 和 写作 科目 的 SAI 成 绩 ， 参 加 SAI 考 试 的 毕业 生 百 分 比 ， 高 中 毕业 生 就 业 率 ， 以 及 辍 

和 刚才 那个 房间 的 比喻 类 似 ， 只 不 过 这 次 不 再 是 正方 形 的 房间 ， 而 是 一 个 图 表 ; 不 再 是 一 个 
个 的 人 ， 而 是 一 个 个 的 州 ; 不 再 是 身高 和 体重 ， 而 是 和 教育 相关 的 各 项 指标 。 我 们 的 目的 还 是 一 
样 : 在 一 个 x-y 坐 标的 图 表 里 面 放置 各 个 州 ， 使 指标 相似 的 州 之 间 的 距离 比较 接近 。 

第 一 步 : 计算 出 每 个 州 和 其 他 各 州 之 间 的 距离 。 用 distQ 〇 函数 可 以 做 到 这 一 点 。 我 们 只 需 
要 第 2 列 ~ 第 7 列 ， 因 为 第 1 列 是 各 个 州 的 名 称 ， 而 且 我 们 都 知道 它们 是 不 同 的 。 

ed.dis <- distceducation[,2:7]) 

在 R 的 控制 台中 输入 ed.dis, 我 们 会 看 到 一 系列 矩阵 。 每 个 单元 格 表 现 出 该 州 和 另 一 个 州 之 
间 相 距 多 远 ( 欧 几 里 得 像 系 距离 )。 比 如 说 ， 第 2 行 第 2 列 的 住 就 是 阿拉 巴 马 州 和 阿拉 斯 加 州 之 间 
的 距离 。 对 象 在 此 时 并 不 太 重 要 ， 重 要 的 是 相互 之 间 的 差距 。 

怎样 将 这 个 51 x 51 的 矩阵 变 成 一 幅 xz-y 轴 上 的 图 表 呢 ? 现在 还 不 行 ， 除 非 我 们 为 每 个 州 建立 
一 套 zy 轴 的 坐标 。 这 丈 是 cmdscale(0) 函数 的 作用 。 它 会 把 距离 矩阵 作为 输入 ， 人 然后 返回 一 系列 
点 ， 这 些 点 之 间 的 差距 将 和 猎 阵 所 指定 的 保持 一 致 。 
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ed.mds <- cmdscale(ted.dis) 

骨 次 在 R 的 控制 台中 输入 ed .mds， 我 们 就 能 看 到 现在 每 一 行 数据 都 有 日 己 的 x-y 轴 坐标 了 了 。 
将 这 些 值 存储 为 变量 x 和 y， 然 后 放 到 plot() 函数 里 面 ， 就 会 看 到 结果 ( 见 图 7-27 )。 

x <- ed.mds[,1] 

Y <- ed.mds[,2] 

plot(x,y) 














图 7-27 显示 多 维 量 法 结果 的 点 状 图 
看 起 来 不 错 。 每 个 圆 点 部 代表 一 个 州 。 不 过 还 有 一 个 问题 : 我 们 不 知道 哪个 点 代表 哪个 





州 。 我们 还 需要 标签 , 所 以 跟 之 前 一 样 , 用 text0O) 把 州 名 放 在 各 圆 点 的 位 置 上 , 结果 如 图 7-28 
所 未 。 


plottx, Yy, type="n") 
text(x, y, labels=education$state) 


相当 酷 。 我 们 能 看 到 图 中 出 现 了 两 个 集群 ， 一 个 在 左边 ,一 个 在 右边 。 美 国 ( United States ) 
则 位 于 右边 集群 的 底部 ， 略 靠 中 间 的 位 置 。 到 了 这 一 步 ， 你 可 以 目 行 决定 是 否 继续 分 析 各 个 集群 
分 别 代 表 件 么 意思 ， 不 过 要 想 开 始 你 的 数据 探索 游戏 ， 这 是 一 个 好 的 起 点 。 

比如 说 ， 你 可 以 像 之 前 在 平行 坐标 图 里 面 一 样 ， 用 dropout_colors 来 为 各 个 州 着 色 ， 如 
图 7-29 所 示 。 它 并 不 能 告诉 你 太 多 信息 ， 但 确实 验证 了 之 前 你 在 图 7-25 里 面 看 到 的 内 容 。 
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图 7-28 ”用 州 名 来 代替 加 点 ， 以 便 观察 每 个 州 被 放 在 了 什么 位 置 
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图 7-29 





按 辍 学 率 进行 者 色 的 各 个 州 
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如 末 按 阅读 科目 的 平均 分 来 者 色 ， 结 果 又 会 怎样 ? 你 当然 可 以 这 么 做 ， 如 图 7-30 所 示 。 啊 ， 
现在 似乎 已 经 浮现 出 清晰 的 模式 了 。 局 分 的 州 虱 在 左边 , 低 分 部 在 右边 ?是 什么 让 华盛顿 州 与 众 
不 同 ? 仔细 看 看 一 一 和 候 你 就 知道 答案 了 。 
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图 7-30” 按 阅 读 科目 平均 分 进行 看 色 的 各 个 州 


如 果 你 还 想 玩 点 花样 ， 可 以 笠 试 一 种 被 称 为 “基于 模型 聚 类 ”( model-based clustering ) 的 
方法 。 我 不 会 详细 讨论 它 的 细节 ， 只 是 告诉 大 家 如 何 实现 ,并且 证 明 这 些 并 不 是 魔术 ， 只 会 涉 
及 数学 运算 。 简 要 来 说 , 这 种 方法 就 是 在 你 的 多 维 量 法 图 表 中 用 mclust 工 具 包 来 标识 出 各 个 集 
群 。 如 末 你 还 没有 mclust 工 具 包 ， 可 以 安 站 一 个 ,然后 运行 下 列 代码 ,将 得 到 如 图 7-31 所 示 的 








图 表 。 


library(tmclust) 
ed.mclust <- MclustCed.mds) 
plotted.mclust, data=ed.mds) 


左上 角 的 那 幅 图 表 显示 了 运行 算法 在 数据 中 找到 理想 集群 数量 的 结 末 。 其 他 三 幅 图 表 则 显示 
了 集群 。 非 第 历 害 。 我 们 得 到 了 两 个 集群 ， 现 在 则 更 加 明确 了， 显示 了 高 和 低 的 状态 。 

一 般 到 这 个 时 候 ， 我 束 该 告诉 大 家 将 PDF 文 件 嘻 入 到 Illustrator 中 进行 优化 了 。 不 过 我 不 确定 
日 己 古 否 会 将 这 些 图 表 发 表 给 一 般 读 者 。 对 于 非 专 业 的 读者 来 说 ,这 些 图 表 过 于 抽象 ,很 难 理解 
它们 的 含义 。 它 们 对 于 数据 探索 来 说 非常 有 价值 ,但 我 建议 还 是 多 使 用 标准 的 设计 原则 为 好 。 找 
出 清楚 讲 出 故事 所 需要 的 素材 ， 然 后 抛 掉 其 他 那些 。 
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图 7-31 ”基于 模型 聚 类 得 到 的 结 
7.4 寻找 异常 值 


一 方面 ,我 们 要 探究 数据 对 象 为 什么 属于 某 个 群 组 ， 另 一 方面 , 也 应 该 探究 它们 为 什么 会 不 
属于 某 个 群 组 。 也 就 是 说 ， 总 会 有 一 些 数 据点 从 同类 中 凸显 出 来 ,正如 你 所 猿 到 的 ， 它们 被 称 作 
为 “ 异 稍 值 ”(outlier )。 这 些 数据 点 和 全 体 中 的 其 他 数据 显得 格格 不 人 。 有 时 候 它 们 正 是 你 的 故 
事 中 最 值得 人 注意 的 亮点 ， 有 时 候 它们 可 能 只 是 无 聊 的 笔 误 ， 比 如 少 输 了 一 个 零 。 不 管 怎样 , 我 
们 都 需要 对 它们 进行 检查 , 以 便 了 解 到 底 发 生 了 些 什么 。 谁 都 不 希望 在 绘制 了 一 幅 巨 大 的 图 表 后 ， 
被 细心 的 读者 指出 某 个 异 稼 值 有 问题 ， 导 致 之 前 的 六 天 工作 付 诸 东 流 。 

有 很 多 人 设计 了 专门 的 图 表 类 型 ,方便 强调 显示 异 向 值 。 不 过 以 我 的 经 验 来 看 ,什么 都 比 不 
上 上 基础 图 表 和 和 常识 来 得 有 效 。 深入 理解 数据 的 上 下 文 背 景 , 做 好 功课 , 如 果 对 某 些 问题 不 太 确 定 ， 
不 妨 询问 该 方面 的 专家 。 找到 异常 值 后 , 我 们 完全 可 以 用 之 前 所 擎 握 的 网 表 绘 制 技 巧 对 它们 进行 
强调 : 添加 不 同 的 颜色 、 使 用 箭头 或 者 更 粗 的 边框 等 。 

现在 来 看 一 个 简单 的 例子 。 图 7-32 是 一 个 时 间 序 列 图 ， 显 示 了 从 Weather Underground 网 站 上 
抓 取 的 1980 一 2005 年 的 天 气 数据 ( 和 我 们 在 第 2 章 中 所 做 的 一 样 )。 图 表 中 按 季 市 的 循环 是 在 我 们 





























预料 之 中 的 ， 不 过 中 间 那 一 段 是 什么 情况 ? 看 
上 去 不 寻 稼 的 平滑 ,而 其 他 地 方 和 都 有 很 多 噪点 。 
这 没有 什么 大 不 了 的 ， 但 如 采 你 碰巧 需要 依靠 
这 些 数据 建立 天 气 模型 ， 就 需要 了 解 哪些 是 真 
实数 据 ， 哪 些 又 是 估算 出 来 的 。 图 7-32 Weather Underground 网 站 估算 的 天 气 数 据 

与 之 类 似 , 我 们 下 看 看 之 前 显示 犯罪 率 的 星 图 , 很 明显 哥伦比亚 特区 过 于 突出 。 用 基本 的 柱 
形 图 也 能 轻易 发 现 这 一 问题 , 如 图 7-33 所 示 。 拿 这 些 州 与 更 像 一 座 城市 的 哥伦比亚 特区 进行 比较 ， 
是 否 有 失 公 平 ? 你 可 以 目 己 来 判断 。 














枪支 凶 永 案 


在 美国 ， 平 均 每 10 万 人 中 就 会 发 生 2.98 起 枪支 
凶杀 案 。 下 方 的 图 表 显 示 了 各 州 与 全 国平 均 
值 相 比 较 的 结果 。 
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Source: Federal Bureau of Investigation | FlowingData, http://flowingdata.com 





图 7-33 ”美国 的 枪支 凶杀 案 
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而 在 第 4 草 中 谈 到 的 订阅 者 数量 问题 又 是 怎么 回 事 ? 在 图 7-34 中 ， 中 间 有 一 个 明显 的 波 合 ， 
似乎 FlowingData 网 站 有 一 半 以 上 的 读者 都 获 发 了 。 





Flowing Data 网 站 RSS Feed 的 订阅 者 数量 





图 7-34 ” ”FlowingData 一 段 时 期 内 的 订阅 者 数量 





我 们 也 可 以 通过 直方 图 来 看 看 整体 的 分 布 情况 ， 如 图 7-35 所 示 。 大 部 分 订阅 者 都 在 右边 ， 有 
一 小 部 分 在 最 左边 ， 而 中 间 什 么 部 没有 。 


订阅 者 数量 分 布 


1 2 30 


3 10 
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图 7-35 ”显示 订阅 者 数量 分 布 的 直方 图 


7.4 寻找 异常 值 2 








要 想 更 具体 一 些 ， 我 们 还 可 以 用 到 箱 型 图 ( boxplot )， 它 能 显示 分 布 中 的 四 分 位 数 。 箱 型 图 
在 R 里 面 可 以 通过 boxp1ot 0) 图 数 生 成 ， 它 会 目 动 高 完 显 示 比 上 四 分 位 数 、 下 四 分 位 数 多 或 少 1.5 
信 以 上 的 数据 点 ( 见 图 7-36 )。 

















图 7-36 ”显示 订阅 者 数量 分 布 的 箱 型 图 


了 > 一 个 数据 集中 有 3 个 四 分 点 ( quartile ) ， 这 3 个 四 分 点 将 图 表 4 等 分 。 中 间 的 四 分 点 也 就 是 
中 位 点 (median ) ， 上 四 分 点 以 上 是 所 有 数据 中 最 大 的 25%， 而 下 四 分 点 以 下 则 是 所 有 数据 


中 最 小 的 25%。 





如 果 我 网 站 的 订阅 者 数量 不 多 ， 比 如 只 有 个 位 数 , 那么 这 么 高 百分比 的 降低 还 是 可 能 的 。 但 
如 有 果 说 我 在 网 站 里 说 了 什么 耻 接 导 任 上 万 名 读者 变 广 (而 且 在 几 天 后 又 都 回来 广 )， 这 似乎 过 于 
牵强 。 更 合理 的 解释 应 该 是 Feedburner ( 我 使 用 的 feed 发 送 服务 商 ) 给 我 的 报告 中 出 现 了 错误 。 

这 些 数据 集中 的 寞 津 值 之 所 以 如 此 显而易见 , 是 因为 我 们 对 这 些 数据 还 算 熟 悉 。 要 是 我 们 用 
到 了 不 太 熟 悉 的 数据 集 ， 那么 它们 可 能 就 不 会 这 么 明显 。 如 打发 生 了 这 种 情况 ,不 妨 百 接 寻 访 数 
据 的 源头 ， 问 问 是 谁 在 负责 此 事 。 创建 、 存 储 这 些 数据 的 个 人 或 团体 通常 都 会 很 蜗 兴 有 人 在 使 用 
他 们 的 数据 ,也 会 乐于 提供 建议 。 如 果 你 确实 无 法 找 出 更 多 细 市 ， 起 码 你 也 尽力 了 ,那么 就 在 图 
表 的 里 面 对 问 题 给 出 一 点 说 明 吧 ，。 
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7.5 ”小结 


对 于 初学 者 来 次 , 设计 数据 图 表 时 最 困难 的 一 个 环 市 就 是 找到 入 手 点 。 所 有 的 数据 都 摆 在 面 
前 , 但 对 它们 部 代表 什么 没有 任何 的 概念 或 预期 。 一 般 来 说 , 我 们 可 以 尝试 对 数据 提出 一 个 或 多 
个 疑问 ,并 试图 解决 这 些 疑 间 ， 以 此 作为 开始 。 但 如 果 不 知道 要 问 什么 又 该 怎么 办 ?本 章 所 讲述 
的 方法 能 为 我 们 市 来 很 大 带 助 。 它 们 能 让 我 们 一 次 性 看 到 所 有 的 数据 ， 从 而 更 方便 地 弄 清楚 下 一 
步 该 探索 其 中 的 哪个 部 分 。 

不 过 , 这 只 是 个 开始 。 我 们 在 这 一 步 可 以 将 范围 缩小 到 那些 令 人 感 兴 趣 的 点 上 面 。 有 了 这 些 
点 ， 再 加 上 前 面 儿 章 中 所 讲 的 内 容 ， 应 该 可 以 帮助 你 对 各 种 类 型 的 数据 进行 深入 的 控 据 了 。 喇 ， 
除了 一 种 数据 之 外 。 下 一 章 就 会 谈 到 这 种 特殊 的 数据 类 型 : 空间 数据 。 准 备 好 画 地 图 吧 。 

















有 天 空间 关系 的 可 视 化 





地 图 是 一 种 非常 直观 的 可 视 化 类 型 。 我 在 还 是 个 孩子 的 时 候 就 能 看 懂 
地 图 。 我 还 记得 当时 坐 在 父亲 车 里 的 副 鸭 驶 位 置 上 , 打开 巨大 的 地 图 大 声 
为 他 指 路 。 如 今 这 个 角色 已 经 变 成 了 一 位 澳大利亚 女士 ,从 仪表 盘 的 一 个 
小 金子 里 用 平缓 而 机 械 的 声音 送出 应 该 前 进 的 方向 。 

不 论 怎样 , 地 图 都 是 一 种 理解 数据 的 极 佳 手段 。 它 们 是 真实 世界 按 比 
例 缩小 后 的 版 本 ,而 且 它 们 无 处 不 在 。 在 本 章 中 ,我 们 会 深入 到 多 种 空间 
数据 集中 ， 寻 找 跨越 空间 和 时 间 的 那些 模式 。 我 们 会 先 用 R 创 建 一 些 基础 
地 图 ,然后 用 Python 和 SVG 创建 更 高 级 的 地 图 ,最 后 ,用 ActionScript 和 Flash 
来 创建 可 交互 的 动画 地 图 。 
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8.1 在 空间 中 寻求 什么 


我 们 阅读 地 图 的 方式 和 阅读 静态 图 表 的 方式 儿 乎 是 一 样 的 。 当 我 们 在 地 图 上 寻找 某 个 具体 地 
点 时 ,实际 上 仍然 是 一 个 不 断 缩小 区 域 、 或 者 不 断 和 其 他 地 区 进行 比较 的 过 程 。 区 别 在 于 此 刻 我 
们 面 对 的 是 经 度 和 纬度 ， 而 非 x 轴 与 y 轴 坐标 。 在 地 图 上 ， 坐 标 彼此 之 间 的 联系 和 城市 之 间 的 联系 
也 是 一 样 的 。4 点 和 8 点 之 间 的 距离 为 具体 的 类 里 数 ,， 而 且 从 4 到 B 所 需要 的 时 间 也 可 以 佑 算出 来 。 
而 相对 地 ， 在 点 状 图 中 4 和 8 之 间 的 距离 则 是 抽象 的 ， 而 且 《〈 通 帝 ) 没有 单位 。 

这 种 区 别 为 地 图 和 地 图 的 制作 市 来 了 许多 微妙 之 处 。 因 此 不 难 理解 为 什么 《纽约 时 报 》 的 图 
形 编 辑 部 会 成 立 一 个 小 组 来 专职 设计 地 图 。 我 们 需要 确保 所 有 地 点 的 位 置 部 正确 无 误 、 闫 色 部 符 
合 规范 、 标 签 不 会 盖 住 位 置 ， 以 及 使 用 了 正确 的 投影 法 。 

本 莉 只 介绍 了 其 中 一 小 部 分 基础 知识 。 仪 仅 这 些 束 能 够 市 领 你 在 数据 中 挖掘 出 精彩 的 故事 ， 
但 别 去 了 还 能 尝试 许多 其 他 超级 炫 的 效 琳 。 

当 引 入 时 间 之 后 ,事情 还 会 变 得 更 加 有 趣 。 一 幅 地 图 只 能 代表 一 个 时 间 搬 段 ， 但 我 们 可 以 用 
多 幅 地 图 来 代表 多 个 时 间 片 段 。 我们 甚至 还 可 以 用 动画 的 形式 来 表现 变化 , 例如 某 个 企业 在 某 个 
地 理 区 域 中 的 扩张 (或 萎缩 ), 这 样 一 来 在 某 些 地 区 的 爆发 性 增长 将 会 变 得 非常 显而易见 。 为 外 ， 
如 果 地 图 是 可 交互 的 , 读者 就 能 更 方便 地 观察 日 己 感 兴趣 的 地 区 是 如 何 发 生变 化 的 。 在 柱 形 图 或 
扩 状 图 中 我 们 不 太 可 能 得 到 这 样 的 效果 ,但 有 了 地 图 ， 数 据 立 刻 就 能 让 人 专 至 了 。 


8.2 具体 位 置 


一 份 地 点 清单 是 我 们 能 得 到 的 最 好 处 理 的 空间 数据 了 。 我 们 有 了 一 堆 地 点 的 经 纬度 ， 只 需 将 
它们 标注 在 地 图 上 即 可 。 也 许 你 还 想 展 现 事 件 ( 比如 犯罪 ) 在 哪些 地 方 发 和 后， 或 者 想 找到 事件 发 
生 最 密集 的 是 哪个 区 域 ， 这 些 都 很 容易 办 到 ， 而 且 有 很 多 方法 。 

在 网 上 , 调用 地 图 最 稼 用 的 方法 是 傅 助 Google 或 者 Microsoft 地 图 。 通 过 他 们 的 地 图 API， 
我 们 就 能 立刻 得 到 可 以 缩放 和 平移 的 可 交互 地 图 ， 而 这 只 需要 几 行 JavaScript 代 人 码 就 能 实现 。 
对 于 如 何 运 用 这 些 API， 有 海量 的 在 线 教程 ， 而 且说 明文 档 也 很 详细 ， 所 以 这 里 我 就 不 再 缆 
述 了 。 















































说 明 Google 和 Microsoft 为 刚 开 始 使 用 他 们 地 图 API 的 新 手 们 提供 了 超级 浅显 多 懂 的 教程 ， 如 果 
你 打算 用 他 们 的 产品 实现 一 些 基 本 的 地 图 功能 ， 不 妨 先 过 一 遍 这 些 教程 。 











不 过 这 种 地 图 也 有 不 是 。 它 们 的 可 定制 程度 很 低 ， 到 最 后 得 到 的 结 末 看 上 去 还 是 像 Google 
或 Microsoft 地 图 。 我 不 是 说 它们 难看 ， 只 是 当 我 们 开发 应 用 或 设计 图 表 时 ,地 图 在 视觉 上 还 是 要 
与 设计 主题 相 吻 合 。 有 些 办 法 能 解决 这 个 问题 , 但 是 为 此 花 上 太 多 精力 又 不 值得 , 尤其 是 还 有 其 
他 工具 能 做 得 更 好 的 时 候 。 
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8.2.1 找到 纬度 和 经 度 


在 绘制 地 图 之 前 ， 先 考虑 一 下 能 拿 到 哪些 数据 ， 又 宕 要 哪些 数据 。 如 果 你 连 需 要 的 数据 都 没 
有 , 目 然 也 就 没 法 可 视 化 了 , 不 是 吗 ? 在 大 多 数 实际 应 用 中 , 你 需要 经 纬度 才能 确定 地 点 的 位 置 ， 
而 大 部 分 数据 集 都 不 太 可 能 会 提供 这 些 信息 ， 我 们 能 拿 到 的 更 有 可 能 只 是 一 份 地 址 列表 而 已 。 

卓然 ,你 不 能 把 街道 名 称 和 邮编 直接 便 插 到 地 图 里 面 ， 那 样 不 可 能 会 有 好 效果 。 我 们 必须 首 

拿 到 经 纬度 ， 而 要 想 做 到 这 一 点 ， 可 以 试 试 地 理 编 码 ( geocode )。 其 原理 是 我 们 把 地 址 传 给 服 
务 提供 商 , 服务 提供 商会 请 求 数 据 库 与 地 址 进行 匹配 , 然后 判断 这 个 地 址 应 该 是 在 地 球 的 哪个 位 
置 ， 之 后 我 们 就 能 得 到 该 位 置 的 经 纬度 。 

至 于 有 哪些 服务 提供 商 可 用 , 嗯 , 倒是 有 不 少 。 如 果 和 需要 地 理 编码 的 地 点 不 多 ,我 们 可 以 去 
某 个 网 站 然后 手工 输入 查询 。Geocoder.us 是 一 个 很 好 的 选择 ,而且 免费。 如 采 地 点 不 需要 特别 精 
确 ， 也 可 以 试 试 Pierre Gorissen 开 发 的 基于 Google 地 图 的 Latitude Longitude Popup。 该 应 用 有 一 个 
简单 的 Google 地 图 界面 ， 在 地 图 上 点 击 任何 位 置 ， 它 都 会 弹出 该 地 点 的 经 纬度 信息 。 

但 如 采 你 有 很 多 地 点 需要 地 理 编 码 ， 就 应 该 通过 程序 来 解决 了 , 否则 手工 的 复制 粘贴 太 花 时 
间 。Google、Yahoo!、Geocoder.us 和 Mediawiki 都 提供 地 理 编码 的 API, 而 Python 中 有 一 个 叫做 Geopy 
的 地 理 编码 工具 箱 则 把 它们 都 者 括 进来 了。 






































有 用 的 地 理 编码 工具 
提供 简单 的 界面 ， 将 地 址 复制 并 粘贴 进去 后 会 得 





口 Geocoderus (http:Wgeocoderus ) 
到 经 纬度 信息 。 还 提供 API。 

口 Latitude Longitude Popup( www.gorissen.info/Pierre/maps/ ) 
在 地 图 上 点 击 某 个 位 置 ， 它 就 能 告诉 你 该 地 的 经 纬度 。 

口 Geopy ( http://code.google.com/p/geopy/ ) 一 一 Python 的 地 理 编码 工具 箱 。 在 一 个 工具 
包 中 过 括 了 多 个 地 理 编码 API。 





Google 地 图 的 混搭 模式 。 





访问 Geopy 的 网 页 可 以 浏览 该 工具 包 的 安装 指南 ， 还 能 找到 很 多 简单 的 应 用 实例 。 我 们 下 面 
的 例子 假设 你 已 经 在 计算 机 上 安 疙 了 该 工具 包 。 

在 安装 好 Geopy 后 ,在 http://book.flowinedata.com/ch08/geocode/costcos-limited.csv 下 载 位 置 数 
据 。 这 是 一 个 CSV 文 件 ， 包 含 了 美国 境内 每 一 家 好 市 多 ( Costco ) 店铺 的 地 址 信息 ， 但 没有 经 纬 
度 。 这 就 得 徘 我 们 来 想 办 法 了 。 

打开 一 个 新 文件 , 将 其 存储 为 geocode-locations.py。 和 往常 一 样 ， 首 先导 入 你 要 用 到 的 工具 包 。 














from geopy import geocoders 

import csyv 

我 们 还 需要 一 个 API 开 发 密 匙 (API Key ) 才能 获得 各 种 服务 。 对 于 本 例 来 说 ， 我 们 只 用 从 
Google 那 里 获取 一 个 即 可 。 
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说 明 访问 http://code.google.com/apis/maps/signup.html 注 册 一 个 Google 地 图 API 的 免费 开发 密 
匙 。 过 程 非常 简单 ， 只 需 几 分 钟 就 能 完成 。 





把 开发 密 古 存 和 人 一 个 名 为 9_api_key 的 变量 ， 在 初始 化 地 理 编码 时 使 用 它 。 


g_api_key = INSERT YOUR_API_KEY_HERE 
g = geocoders.oo0gle(tg_api_Kkey) 


载 人 costcos-limited.csv 数 据 文 件 ， 然 后 开始 循环 处 理 。 针 对 每 一 行 数据 ， 我 们 把 所 有 的 地 址 
信息 拼 成 一 个 整体 ， 然 后 进行 地 理 编码 。 


costcos = csv.readertopen('costcos-limited.csv'), delimiter=",') 
next(costcos) 划 跳 过 标题 


# 打印 标题 
print "Address,City,State,Zip Code,Latitude,Longitude'" 
for row in costcos: 


full addy = row[l] + "," + row[2] + ", + row[3] + "," + row[4] 
place, Clat, 1ngy = listtg.geocode(full_addy, exactly_one=False))[0] 
print full_addy + "," + strtlat) + "," + strClng) 


这 就 行 了 。 运 行 Python 肢 本， 并 把 输出 结果 存储 为 costcos-geocoded.csv。 以 下 是 所 得 数据 的 
尖 儿 行 ， 

Address,City,State,Zip Code,Latitude,Longitude 

1205 N. Memorial Parkway,Huntsville,Alabama,35801-5930,34.7430949,-86 

.6009553 

3650 Galleria Circle,Hoover,Alabama,35244-2346,33.377649,-86.81242 

825] Eastchase ParkwayMontgomery,Alabama,361]17,32.363889,-86.150884 

5225 Commercial Boulevard,Juneau,Alaska.99801-7210,58.3592,-134.483 

330 West Dimond Blvd,Anchorage,Alaska,995]15-1950,61.143266,-149.884217 





相当 酷 。 如 果 和 对 和 运 的 话 ， 每 一 个 地 址 都 应 该 能 找到 对 应 的 经 纬度 坐标 。 但 这 种 情况 通 稼 不 
出 现 。 如 果 遇 到 了 这 种 问题 ， 你 应 该 在 之 前 代码 的 倒数 第 二 行 加 入 错误 验证 。 
try: 
place, «lat, lng) = listtg.geocode(full_addy, exactly_one=False)) 


办 





[0] 
print full_addy + "," + strlat) + "," + str(lng) 
excCept: 
print full_addy + ",NULL,NULL'" 


这 段 代码 会 尝试 寻找 对 应 的 经 纬度 坐标 , 如 来 寻 找 失 败 , 束 会 输出 该 行 数据 的 地 址 以 及 空 的 
坐标 值 。 运 行 Python 脚 本 并 存储 输出 结 末 ， 我 们 就 能 从 中 找到 那些 空 值 。 此 时 我 们 可 以 用 Geopy 
试 试 其 他 服务 商 ， 或 者 在 Geocoder.us 里 手工 输入 这 些 空 值 的 地 址 进行 查询 。 
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8.2.2 单纯 的 点 


现在 我 们 有 了 带 经 纬度 信息 的 各 个 地 点 ， 可 以 绘制 地 图 了 。 最 直接 的 办 法 就 是 为 各 个 地 点 
沃 加 标记 ， 和 真实 世界 中 往 纸板 上 揭 岁 钉 很 相似 ， 只 不 过 是 让 计算 机 来 完成 。 基 本 框 织 如 网 8-1 
所 示 。 

虽然 这 个 概念 很 简单 ， 但 我 们 仍然 能 在 数据 中 看 到 集群 、 扩 展 和 异常 值 等 特征 。 

1. 市 有 点 的 地 图 

虽然 R 在 绘制 地 图 方面 的 功能 比较 有 限 ， 但 在 地 图 上 放置 点 却 很 轻松 。 这 一 任务 主要 是 由 
maps 工 具 包 来 完成 的 。 在 R 中 输入 instal11.packages() ， 或 者 通过 Package Installer 安 装 maps 工 
具 包 。 安 竣 好 后 将 其 载 人 到 工作 区 。 

librarytmaps) 


下 一 步 : 载 人 数据 。 你 可 以 使 用 之 前 地 理 编码 过 的 好 市 多 店铺 的 地 址 数据 , 或 者 也 可 以 直接 
通过 URL 载 入 我 加 工 好 的 数据 集 。 














COStCOS <- 
read.csv("http://book .fiowingdata.com/chO8/geocode/costcos-geocoded 
CSVv", Sep=",") 


地 点 
根据 经 纬度 坐标 ， 用 
记号 来 表示 具体 位 置 


; 连接 线 ea 
通常 用 连接 线 来 表现 
经 度 ….。 两 个 位 置 间 的 联系 


垂直 显示 ， 表 明 往 东 
或 往 西 与 本 初子 午 线 
间 的 角 距 离 

纬度 

水 平 显 示 ， 表 明 往 北 或 

往 南 与 杰 道 间 的 角 距 离 





图 8-1 地 图 标识 地 点 的 基本 框 染 
现在 开始 绘图 。 在 创建 地 图 时 ， 把 它们 看 做 是 层 会 比较 好 理解 (不管 你 用 的 是 什么 软件 )。 
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最 底层 一 般 就 是 显示 地 域 界 限 的 基础 地 图 , 它 的 上 面 再 是 那些 数据 的 层 。 在 本 例 中 ,最 的 层 是 闫 
国 地 图 ， 而 第 二 层 就 是 好 市 多 店铺 的 地 址 。 以 下 代码 可 以 创建 第 一 层 ， 结 果 如 图 8-2 所 示 。 


maptdatabase="state'") 

















图 8-2 美国 的 平面 地 图 








第 二 层 , 或 者 说 好 市 多 店铺 层 ， 则 要 通过 symbo1s () 函数 来 绘制 。 它 也 就 是 我 们 在 第 6 章 中 
绘制 气泡 图 所 用 的 函数 ,使 用 方法 也 完全 一 样 ， 只 不 过 这 次 传递 的 是 经 纬度 ， 而 非 之 症 的 x 币 和 
y 轴 坐标 。 此 外 设置 add 为 TRUE， 表 示 我 们 是 和 希望 在 地 图 上 添加 其 他 标记 符号 ， 而 非 创建 一 个 新 
图 表 。 


symbols(costcos$longitude, costcos$Latitude, 
circles=rep(l1, length(costcos$Longitude)), inches=0.05, add=TRUE) 


图 8-3 显 示 了 代码 的 结果 。 所 有 的 圆圈 大 小 都 相同 ， 因 为 我 们 将 circles 设 置 为 一 个 数组 , 它 
的 长 度 等 于 地 点 的 总 数 ， 同 时 我 们 将 inches 设 为 了 0.05, 它 规定 了 各 个 圆圈 的 尺寸 。 如 果 你 希望 
这 些 标记 再 小 一 点 ， 只 需要 减 小 这 个 值 即 可 。 

和 之 前 一 样 ,我 们 可 以 调整 地 图 和 圆圈 的 颜色 ， 以 便 各 个 地 点 的 显示 能 更 突出 ,同时 让 边界 
线 隐 入 到 育 景 中 去 ， 如 图 8-4 所 示 。 现 在 让 我 们 把 这 些 圆 点 改 为 好 市 多 的 标准 红色 ， 同 时 把 州 界 
线 改 为 浅 灰 色 。 

map(database="state’, col="#cccccc") 

symbols(costcos$Longitude, costcos$Latitude, bg="#e2373f", fg="#ffffff", 


Iwd=0.5, circles=rep(l1, length(tcostcos$Longitude)), 
inches=0.05, add=TRUE) 


在 图 8-3 中 ， 未 填 色 的 圆圈 和 地 图 部 是 同一 种 颜色 ， 线 条 的 粗细 也 一 样 ， 所 以 全 虱 混 杂 在 了 
一 起 。 但 如 果 正 硝 运 用 了 颜色 ， 我 们 就 能 让 数据 占据 视线 的 焦点 。 
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图 8-3 ”好 市 多 全 美 店 址 地 图 


只 用 儿 行 代码 就 能 达到 这 种 效果 , 看 起 来 不 坏 。 很 明显 , 好 市 多 比较 倾 问 于 在 沿海 地 寓 开 店 ， 
圆 点 都 聚集 在 加 利 福 尼 亚 的 再 北部 、 和 华盛顿 的 西北 部 以 及 美国 东北 部 。 








图 8-4 ”为 地 图 上 的 地 点 着 色 
不 过 , 这 张 图 还 是 有 一 个 遗漏 ， 确 切 地 说 应 该 是 两 个 : 阿拉 斯 加 和 夏威夷 在 哪里 ?它们 也 是 














美国 的 一 部 分 ， 但 在 图 中 没 法 找到 ， 即 使 nap() 里 已 经 调用 了 "state" 数 据 库 。 实 际 上 ， 这 两 个 
州 是 在 "wor1d" 数 据 库 里 面 ， 所 以 如 果 想 看 好 市 多 在 阿拉 斯 加 和 夏威夷 开 的 店 ， 就 需要 绘制 整个 
世界 地 图 ， 如 图 8-5 所 示 。 
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map(database="world"”, col="#cccccce'") 

symbols(costcos$Longitude, costcos$Latitude, bg="#e2373f", fg="#ffffff", 
lIwd=0.3,，circles=rep(1l, length(costcos$Longitude)), 
inches=0.03, add=TRUE) 





图 8-5 好 市 多 店 址 的 世界 地 图 


我 知道 这 有 操 浪 费 空 间 。 有 很 多 方法 可 以 解决 这 个 问题 ,在 技术 文档 里 面部 可 以 找到 , 但 最 
税 单 的 办 法 就 是 在 Illustrator 里 面 把 其 他 国家 的 地 图 删 挥 ， 然后 把 美国 放大 。 


提示 在 使 用 R 时 ， 如 果 遇 到 了 问题 ， 随 时 可 以 查阅 技术 文档 。 方 法 是 在 不 熟悉 的 函数 或 工具 包 
前 面 加 上 一 个 问号 。 





现在 换 一 个 角度 ， 假 设 我 们 只 和 希望 显示 少数 儿 个 州 的 好 市 多 店 址 ， 那 么 可 以 用 region 人 参数 
来 实现 这 一 点 。 
maptdatabase="state", region=c("California", "Nevada", “Oregon", 
"Washington"), col="#cccccc") 
symbols(costcos$Longitude, costcos$Latitude, bg="#e2373f", fg="#ffffff", 
Iwd=0.5,， circles=rep(l1l, length(tcostcos$Longitude)), inches=0.,05, 
add=TRUE) 


效 末 如 图 8-6 所 示 ， 我 们 创建 了 包括 加 利 福 尼 亚 、 内 华 达 、 俄 勒 四 和 有 墨西哥 州 的 地 图 作为 底 
层 , 然后 在 它 上 面 再 创建 数据 层 。 有 一 些 点 并 不 在 这 些 州 里 , 但 它们 人 处 于 绘图 区 域 中 ， 所 以 依然 
会 显示 。 同 样 地 ， 我 们 可 以 在 目 己 喜欢 的 天 量 绘图 软件 中 删除 这 些 点 。 

2. 市 有 线 的 地 图 

有 时 候 ， 如 条 地 图 上 点 的 顺序 存在 关联 ， 那 么 可 能 需要 将 点 连接 起 来 。 随 者 Foursquare 等 在 
线 定 位 服务 的 流行 ,位 置 奶 踩 已 经 并 不 少见 。 比 较 简 单 的 画 线 方法 目 然 是 利用 1ines() 函数 。 为 
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了 方便 读 示 ,我 们 来 看 一 下 我 作为 乌有 国政 府 的 特工 人 员 , 在 7 天 7 夜间 的 旅行 轨迹 吧 。 和 往 币 一 
样 ， 以 载 入 数据 开始 ， 然 后 先 绘制 基础 的 世界 地 图 。 





图 8-6” 选 定 州 中 的 好 市 多 店 址 


faketrace <- 
read.csvCt"http://book.flowingdata.com/ch0O8/points/fake-trace.txt", 
sep=" \t") 
mapldatabase="world"”, col="#cccccce'") 
在 R 的 控制 台中 输入 faketrace， 先 看 一 眼 数据 帧 。 你 会 发 现 它 只 显示 了 两 列 ， 分别 是 纬度 
和 经 度 ， 而 且 只 有 8 个 数据 点 。 我 们 假设 这 些 地 点 的 顺序 正 是 我 在 这 漫长 7 天 中 旅行 的 顺序 。 


latitude longitude 
1 46.31658 3.5]15625 
2 61.27023 69.609375 
3 34.30714 105.468750 
4 -26.11599 122.695313 
5 -30.143513 22.85]1563 
6 
7 
8 








-35.17381 -63.632813 
21.28937 -99.492188 
36.17336 -1135.180664 


将 这 两 列 插入 1ines 〇 函数 ,就 可 以 绘制 出 线条 了 。 同 时 指定 线条 的 颜色 ( co1 ) 和 宽度 ( 1wd )。 


linestfaketrace$longitude, faketrace$latitude, col="#bb4cd4", lwd=2) 


232 第 8 草 有 关 空 间 关系 的 可 视 化 


现在 再 加 入 加 点。 过 程 和 我 们 之 前 在 好 市 多 一 例 中 所 做 的 一 样 ， 效 有 果 如 图 8-7 所 示 。 


symbols(faketrace$longitude, faketrace$slatitude, lwd=]1], bg="#bb4cd4", 


fgq="#ffffff", circles=rep(l1l, length(faketrace$longitude)), inches=0.05, 
add=TRUE) 





图 8-7 ”绘制 位 置 追 踩 轨迹 





作为 特工 为 乌有 国政 府 奔 波 了 7 天 7 夜 之 后 ， 我 决定 洗手 不 于 了。 这 工作 并 不 像 007 电 影 里 面 
表现 的 那么 迷人 。 不过, 我 还 是 为 那些 我 拜访 过 的 国家 创建 了 连接 线 。 从 我 居住 的 地 方 到 所 有 其 
他 国家 之 间 画 上 线 ， 可 能 会 很 有 趣 ， 效 末 如 图 8-8 所 未 。 


maptdatabase= "worl gd ，CoO1="#CCCCCE 

for Cin 2:lengthcfaketrace$liongitudey-1) { 
lngs <- cl(faketrace$longitude[8], faketrace$longitude[i]) 
lats <- clfaketrace$latitude[8], faketrace$latitude[i]) 
lines(tlngs, lats, col="#bb4cd4", lwd=2) 





图 8-8 绘制 与 世界 各 地 的 连接 线 
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在 创建 好 底层 地 图 之 后 , 我 们 对 数据 帧 的 每 个 点 循环 处 理 , 让 它们 和 数据 帧 最 后 的 那个 点 之 
间 用 线条 连接 起 来 。 这 张 图 可 能 信息 含量 并 不 高 ,但 也 许 你 会 找到 合适 的 机 会 用 上 它 。 举 这 个 例 
子 的 目的 是 希望 大 家 了解， 在 绘制 好 地 图 之 后 ， 只 要 有 经 纬度 坐标 就 可 以 利用 R 的 各 种 图 形 揣 
数 来 随心 所 欲 地 绘制 你 想 要 的 任何 东西 。 

哦 ， 对 了 ， 我 并 没有 在 的 当 过 咏 有 国 的 特工 。 我 只 是 在 开玩笑 而 已 。 


8.2.3 ”有 大 有 小 的 所 


让 我 们 回 到 真实 的 数据 上 来 ,进入 一 个 比特 工 恶作剧 更 有 意思 的 话题 。 有 些 时 候 , 我 们 手 上 
并 不 只 有 位 置 数 据 , 可 能 还 会 有 其 他 的 数值 ,例如 销售 数据 或 者 城市 人 口 等 。 我 们 依然 是 在 地 图 
上 绘制 圆 点 ， 但 这 次 可 以 用 上 气泡 图 的 原则 。 

我 应 该 不 必 册 次 解释 气泡 的 尺寸 是 根据 面积 而 非 半径 来 的 ， 对 吧 ? 很 好 。 

只 有 气泡 的 地 图 

在 本 例 中 , 让 我 们 看 一 下 《2008 年 联合 国人 类 发 展 报告 > 中 的 未 成 年 人 生育 率 , 也 就 是 每 1000 
名 15 ~19 岁 年 龄 段 女 性 中 的 生育 数量 。 其 中 的 地 理 坐 标 由 GeoCommons 提 供 。 我 们 和 硕 望 根据 不 同 
国家 间 生 育 率 的 比例 来 指定 各 个 气泡 的 大 小 。 

所 用 到 的 代码 和 之 前 绘制 好 市 多 店 址 地 图 时 所 用 的 差不多 ,但 要 记 住 当时 我 们 只 问 
symbo1s 0) 函数 传递 了 一 个 向 量 来 控制 圆圈 的 太 才 。 而 这 次 , 我 们 会 用 到 生育 率 的 sqrt 0) 函数 来 
指定 圆 点 的 大 小 。 

fertility <- 

read.csv(t"http://book.flowingdata.com/chO8/points/adol-fertility.csv'") 
mapC'world'’, fill = FALSE, col = "#ccccce") 

symbols(fertility$longitude, fertility$latitude, 


circles=sqrt(fertility$ad_fert_rate), add=TRUE, 
inches=0.15, bg="#93ceef", fg="#ffffff") 


图 8-9 显 示 了 输出 的 结果 。 我 们 很 快 就 能 发 现 非洲 国家 的 未 成 年 人 生育 座 比 较 高 ， 而 欧洲 国 
家 相对 较 低 。 单 独 只 看 图 表 ， 并 不 清楚 每 个 圆 代表 多 少数 值 ， 因 为 尚未 给 出 图 例 。 在 R 中 用 
summary (可 以 得 到 一 份 概览 。 

summary(fertility$ad fert_rate) 
























































Min. lst Qu, Median Mean 3rd Qu ， Max . NA's 
3.20 16.20 39 .00 52.89 r8.20 201.40 1.00 


这 个 数据 对 我 们 来 说 已 经 不 错 了 , 但 我 们 只 是 受众 之 一 。 如 末 布 望 其 他 没有 看 过 此 数据 的 人 
也 能 理解 图 表 , 束 知 要 更 多 的 解释 。 我 们 可 以 为 表现 突出 (生育 座 最 高 和 最 低 ) 的 国家 染 加 注释 ， 
可 以 专门 标识 出 读者 最 多 的 国家 ( 在 本 例 中 也 就 是 美国 )， 同 时 还 可 以 提供 一 段 引 文 ， 帮 助 该 者 
理解 如 何 阅读 图 表 。 图 8-10 显 示 了 这 些 改变 。 
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图 8-9 全球 未 成 年 人 生育 率 


全 球 未 成 年 人 生育 率 


2008 年 ， 全 球 每 1000 名 15~19 岁 年 龄 段 的 女性 中 平均 有 51 名 Om Om om ox on 
进行 了 生育 。 下 图 中 的 气泡 大 小 代表 各 个 国家 的 生育 率 。 


美国 的 未 成 年 
人 生育 率 是 35%o 利比亚 的 未 成 年 人 生育 率 
最 低 ， 只 有 3%o 


刚果 民主 共和 国 的 未 成 年 人 生育 率 
达到 了 201%， 是 所 有 国家 中 最 高 的 


Source: Lnited National Human Dawelopment Repart and GeoCommons / FLOWIMGDATA 





图 8-10 ”为 更 广泛 的 读者 群 对 生育 率 提 供 清 晰 的 解释 
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8.3 地 区 


在 地 图 上 绘制 圆 点 为 我 们 带 来 的 价值 基本 上 就 是 以 上 这 些 ， 因 为 它们 只 能 代表 单个 的 位 置 。 
县 、 州 、 国 和 洲 都 是 市 有 边界 线 的 完整 区 域 , 而 且 地 理 数据 往往 部 是 通过 这 种 方式 生成 的 。 比 如 
说 ， 与 单个 病人 或 医院 的 数据 相 比 ， 找 到 某 个 州 或 某 个 国家 的 居民 卫生 数据 通 稼 都 会 容易 得 多 。 
很 多 时 候 这 些 数 据 痢 是 私人 生成 的 ,但 聚集 起 来 后 ， 数 据 就 很 容易 锌 公 开 。 不 管 怎 么 议 ， 我 们 经 
常会 按 这 种 方式 来 使 用 自己 手中 的 空间 数据 ， 所 以 现在 看 看 怎样 对 它们 进行 可 视 化 。 


根据 数据 来 看 色 


等 值 区 域 图 ( choropleth map ) 是 最 为 常见 的 绘制 区 域 性 数据 地 图 的 方式 。 根 据 某 种 度量 方 
法 , 各 个 地 区 会 根据 我 们 定义 的 颜色 标尺 进行 着 色 , 如 图 8-11 所 示 。 地 区 和 位 置 都 已 经 定义 好 了 ， 
所 以 我 们 的 工作 就 是 选择 使 用 一 种 合适 的 颜色 标尺 。 




















2 


ad 


不 同色 彩 的 地 区 

地 图 上 的 各 个 区 域 根 据 某 种 配色 
方案 进行 不 同 的 着 色 。 颜 色 较 暗 
的 区 域 通常 表示 其 数值 较 高 。 





图 8-11 ”等 值 区域 图 的 基本 框架 8 


我 们 在 上 一 章 曾 接触 过 Cynthia Brewer 开 发 的 ColorBrewer， 它 非常 方便 于 选择 颜色 ， 对 调 色 
板 的 设计 也 有 很 大 帮助 。 如 果 我 们 的 数据 是 延续 性 的 ， 可 能 就 会 希望 有 类 似 延 续 性 的 颜色 标尺 ， 
在 一 个 色 度 (或 者 多 个 相似 的 色 度 ) 内 由 浅 到 次 进行 渐变 ， 如 网 8-12 所 示 。 
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图 8-12 ”ColorBrewer 实 现 的 连续 性 配色 


如 打数 据 代 表 的 是 正 反 两 种 品质 ,例如 好 和 坏 、 高 于 或 低 于 临界 值 , 那么 相互 育 离 的 配色 方 


案 可 能 会 


站 | 





图 8-13 ”ColorBrewer 实 现 的 相互 背离 的 配色 


最 后 ， 如 果 数 据 分 属于 不 同 的 类 ， 那 么 就 需要 为 每 一 类 填充 唯一 的 颜色 ( 见 图 8-14 )。 

当 我 们 有 了 目 己 的 配色 方案 之 后 , 还 有 两 件 事 情 要 做 。 第 一 件 是 决定 如 何 让 选择 的 颜色 与 数 
据 的 范围 相 适 配 ， 第 二 件 是 根据 我 们 的 选择 为 每 个 地 区 安排 颜色 。 在 下 面 的 例子 中 , 我 们 可 以 用 
Python 和 可 缩放 矢量 图 形 ( Scalable Vector Graphics，SVG ) 来 完成 以 上 两 件 事 情 。 
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图 8-14 ”ColorBrewer 实 现 的 定性 配色 ( 另 见 彩 插图 8-14 ) 


1. 绘制 县 的 地 图 

美国 旁 工 统计 局 每 个 月 都 会 提供 县 级 别 的 失业 率 数 据 , 我们 可 以 从 其 官方 网 站 上 下 载 从 数 年 
十 到 最 近 的 数据 。 不 过 ,劳工 统计 局 提供 的 数据 表现 形式 有 点 过 时 了 ， 操 作 也 很 厂 烦 ， 所 以 为 了 
简单 起 见 (也 为 了 避免 其 网 站 改版 )， 大 家 可 以 在 http://book.flowingdata.com/ch08/regions/ 
unemployment-aug2010.txt 下 载 数 据 。 数 据 共 有 6 列 ， 第 一 列 是 务工 统计 局 专用 的 编码 ， 其 后 两 列 
是 唯一 的 ID , 用 于 标识 各 个 县 。 第 4 列 和 第 5 列 分 别 是 各 县 的 名 称 以 及 月 份 , 最 后 一 列 则 是 各 和 郡 县 
失业 人 数 的 佑 算 百 分 比 。 在 本 例 中 ， 我 们 只 用 关心 县 的 ID (也 就 是 联邦 资料 处 理 标准 码 ，FIPS 
codes ) 和 失业 率 即 可 。 

现在 来 画 地 图 。 在 上 一 和 草 中 , 我 们 是 用 R 生 成 的 底层 地 图 , 这 次 我 们 可 以 试 试用 Python 和 SVG 
来 做 到 这 一 点 。 前 者 用 于 处 理 数据 ， 而 后 者 用 于 绘制 地 网 。 不 过 ， 我 们 也 不 需要 完全 从 头 开 始 。 
从 维基 共享 资源 ( Wikimedia Commons ) 可 以 获得 一 张 空 日 的 地 图 ， 地 址 是 http://commons. 
wikimedia.org/wiki/File:USA_Counties_with_FIPS_and_names.svg， 如 图 8-15 所 示 。 该 页 面 链 向 4 种 
矿 才 的 PNG 格 式 地 图 和 1 个 SVG 格式 地 图 ， 我 们 要 的 是 SVG 格式 。 下 载 SVG 文 件 并 存储 为 
counties.svg， 目 录 与 你 保存 失业 率 数据 的 文件 夹 相同 。 

如 采 你 不 熟悉 SVG， 只 需要 知道 它 实 际 上 束 是 一 种 XML 文件 。 它 是 市 有 标签 的 文本 ， 我 们 
可 以 在 文本 编辑 器 里 对 其 进行 编辑 ， 就 像 编 辑 HTML 文件 那样 。 网 页 浏览 器 或 者 图 片 浏览 器 会 读 
取 XML， 而 XML 告 诉 浏览 絮 显 示 什 么 内 容 ， 例 如 绘制 什么 形状 、 使 用 什么 颜色 。 

我 们 可 以 验证 这 一 点 。 用 文本 编辑 需 打 开 这 个 地 图 SVG 文件 ,看 看 你 将 要 面 对 的 是 什么 。 甚 
中 大 部 分 都 是 SVG 的 声明 以 及 一 些 套话 ， 现 在 完全 不 需要 关心 。 
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图 8-15 来 日 维基 共 至 资源 的 空 日 关 国 县 地 图 


往 下 深 动 页 面 , 可 以 看 到 一 些 <path> 标 签 ， 如 图 8-16 所 示 。 在 一 个 标签 内 的 所 有 数字 就 指定 
了 县 的 边界 。 我 们 现在 不 要 动 它们 。 我们 感 兴趣 的 是 修改 每 个 县 的 填充 色 ， 以 便 适 配 其 对 应 的 失 
业 率 。 要 做 到 这 一 点 ， 必 须 修 改 这 些 路 径 的 样式 。 


.F3875, 由“ .3575, ge [34 .F4075, < 

133.17575,315.709935 L 132.95575,315.49635 M 133.17575,317.69235 L 
132.07475,317.03235 L 131.63375,316.37235 L 131.85275,315.70935 L 132.29375,315.49835 L 132.95575,315.93635 L 
133.61475,315.93035 L 134.05575,316.81335 L 133.61475 ,317.03235 L 133.61475 ,317.47235 L 133.83675,318.13335 L 


L 
L 
L 
134.27575,318.13335 L 134.27575,319.45635 L 133.83675,319.091435 L 134.95575,320.11635 L 133.61475,319.89735 L 
L 
L 
L 


133.83675,316.15035 L 133.61475,315.93035 


133.17575,318.79635 L 133.17575,318.13335 L 133.61475,318.13335 L 133.17575,317.69235 M 136.25875,316.81335 L 
136.92075 ,316.37235 L 137.36175,317.25335 L 136.92975 ,317.47235 L 136.25875,317.47235 L 136.25875,316.81335 M 
132.29375,319.67535 L 132.07475,319.23535 L 132.29375,319.23535 L 132.29375,319.89735 L 132.29375,319.67535 M 
133.83675,328.55735 L 134.27575,32@.55735 L 134.05575 ,320.99835 L 133.61475 ,320.77735 L 133.83675 ,328.55735” 
id-"82280" 
inkscape: label="Wrangell-Petersburg, AK™" /> 


L 
上 
L 
L 
L 
L 
L 
L 


style="font-size:12px;fill:#d0d0d0;fill-rule:nonzero;stroke:#0800000;stroke-opacity:1;stroke-width:0.1;stroke-miterlimi 
t:4;stroke-dasharray:none;stroke-linecap:butt;marker-start:none;stroke-linejoin:bevel" 

路 "M 126.78574,312.62535 L 127.88674,313.86735 L 128.76875,312.62535 L 129.42874,313.72735 L 129.42874,313.94835 
L 128.76875 ,314.16735 L 127.22574,313.50735 L 127.00475 ,313.72735 L 127.66674,314.60935 L 127.44574,315.27835 L 
127.00475,315.27035 L 125.02275,313.50735 L 125.90375 ,313.28835 L 125.90375 ,312.40635 L 126.78574,312.62535 M 
132.29375 ,319.67535 L 132.29375 ,319.89735 L 131.85275,319.67535 L 13@.75874,318.57435 L 138.75874,317.91335 L 
130.310975 ,318.35435 L 138.88974,317.91335 L 129.42874,317.69235 L 128.98874,316.37235 L 128.54674,315.93835 L 
128.54674,315.49035 L 128.18674,315.78935 L 127.44574,315.27835 L 127.88674,313.94835 L 128.76875,314.38935 L 
129.64975 ,314.16735 L 129.86974,314.60935 L 129.42874,314.83035 L 129.86974,314.83835 L 131.41375 ,317.25335 L 
132.29375 ,319.23535 L 132.07475,319.23535 L 132.29375,319.67535 M 127.22574,315.49035 L 127.44574,315.27835 L 
128.32674,316.15035 L 128.32674,316.81335 L 127.88674,317.093235 L 127.22574,315.49835" 

id-"02220" 

inkscape: 1abel="Sitka, AK"” /> 


style="font-size:12px;fill:#d0d0d0;fill-rule:nonzero;stroke:#0600000;stroke-opacity:1;stroke-width:@.1;stroke-miterlimi 
t:4;stroke-dasharray:none;stroke-linecap:butt;marker-start:none;stroke-linejoin:bevel" 

全 "M 126.12375,386.89835 L 125.90375 ,307.11835 L 125.24275,386.81735 L 124.58274,305.57635 L 124.58274,385.79735 
L 125.68474,387.55935 L 126.56474,308.88135 L 127.66674,310.64335 L 126.78574,318.64335 L 126.12375 ,309.98335 [上 
125.90375 ,309.76335 L 126.34474,309.32235 L 125.90375 ,308.88135 L 124.80274,308.66035 L 125.82275,387.55935 L 
124.14175 ,306.89835 L 122.15875 ,306.89835 L 122.15875 ,3095.13535 L 123.03975 ,304.03435 L 124.80274,305.35735 L 
125.46275,305.13535 L 125.68474,385.35735 L 126.56474,385.35735 L 127.00475 ,305.79735 L 127.22574,305.57635 L 


1 - 
CCL A HD 








Line: 15779 Column: 5.. 全 XML : $i@v| Tabsize: 4 $|— 


图 8-16 ”SVG 文件 中 指定 的 路 径 
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提示 SVG 文件 就 是 XML 文件， 很 容易 在 文本 编辑 器 里 面 修改 。 这 也 意味 着 我 们 可 以 解析 SVG 
代码 ， 通 过 程序 来 修改 。 


注意 到 每 个 <path> 都 是 以 sty1e 开 始 的 了 吗 ? 那些 写 过 CSS 的 人 可 能 立刻 就 认 出 来 了 。 其 中 
有 一 个 fi11 参 数 ， 其 后 跟 痢 十 六 进 制 的 颜色 值 ， 所 以 如 果 我 们 在 SVG 文件 里 修改 它们 ， 就 能 在 
输出 的 图 片 中 调整 颜色 了 。 你 可 以 手工 去 一 个 个 地 修改 , 但 全 美国 有 3000 多 个 县 。 这 要 花 的 时 间 
可 就 长 了 。 现 在 让 我 们 找 找 老 朋 友 Python 工 具 包 Beautiful Soup， 它 能 让 XML 和 HTML 的 解析 变 得 
相对 容易 一 些 。 

在 存储 SVG 地 图 和 失业 率 数 据 的 文件 夹 里 新 建 一 个 空白 文件 ， 并 改名 为 colorize_svg.py。 我 
们 需要 导入 CSV 数 据 文件 ， 然 后 用 Beautiful Soup 进 行 解析 ， 所 以 第 一 步 先 载 人 需要 的 工具 包 。 


1mport csyv 











from BeautifulSoup import Beaut1fulsoup 


然后 打开 CSV 文 件 并 存储 之 , 以 便 我 们 用 csv .reader QO 〇 循环 处 理 每 一 行 。 请 注意 , 在 open() 
哨 数 里 面 的 "r" 只 是 表示 我 们 希望 打开 文件 并 读 取 (read ) 里 面 的 内 容 ， 而 不 是 往 里 面 写 入 更 多 
新 的 行 。 

reader = csv.reader(open(C'unemployment-aug2010.txt', ‘'r'y, delimiter=",") 


现在 再 载 人 那个 空白 的 SVG 县 地 网。 
svg = Openf counties,.svg ， .readf 


太 好 了 , 我 们 已 经 载 人 了 创建 等 值 区 域 图 所 需要 的 所 有 东西 。 现 在 的 挑战 在 于 你 得 把 数据 和 
SVG 连接 起 来 。 这 两 者 之 间 的 共性 是 什么 ? 给 你 一 个 提示 : 它 肯定 和 每 个 县 的 唯一 DD 有 关 , 我 在 
之 前 已 经 提 过 。 如 果 你 猜 的 是 FIPS 码 ， 那 么 恭喜 你 答对 了 。 

SVG 文件 中 的 每 一 条 路 径 都 有 唯一 的 ID , 正好 是 其 所 属 州 及 所 属 县 的 FIPS 码 的 混合 。 而 在 失 
业 率 数据 的 每 一 行 里 也 有 州 和 县 的 FIPS 码 , 不 过 是 分 开 的 。 比 如 说 , 阿拉 巴 马 州 奥拓 加 (Autauga ) 
县 的 州 FIPS 码 是 01， 县 FIPS 码 是 001。 而 SVG 中 该 路 径 的 IDP 则 是 二 者 的 结合 : 01001 。 

我 们 需要 存储 失业 率 数 据 , 以便 通过 FIPS 码 来 检索 每 一 个 县 的 失业 率 , 就 和 循环 处 理 每 一 条 
路 径 一 样 。 如 条 大 家 有 点 糊涂 了 ， 先 跟着 我 的 思路 ， 到 后 面 看 到 实际 代码 就 会 更 加 清楚 了 了 。 这 里 
主要 是 说 FIPS 码 就 是 我 们 SVG 和 CSV 之 间 的 纽带 ， 对 这 一 点 可 以 加 以 利用 。 












































提示 SVG 文件 中 的 路 径 (尤其 是 地 理 路 径 ) 通常 都 会 有 唯一 的 ID。 这 种 ID 不 一 定 是 FIPS 码 ， 
但 规则 是 一 样 的 。 


有 要 想 存 储 失 业 率 数据 , 便于 后 面 通 过 FIPS 码 谈 取 , 我 们 要 用 到 Python 中 的 “字典 ”这 一 概念 。 
它 能 让 我 们 通过 关键 词 来 存储 和 检索 数值 。 在 本 例 中 ， 我 们 的 关键 词 就 是 相 结合 后 的 州 和 县 的 














240 第 8 和 章 ”有关 空间 关系 的 可 视 化 


FIPS 人 码 ， 如 以 下 代码 所 示 。 


unemployment = {} 
Min_value = 100; max _ value = 0 
for row in reader: 
try: 
full _ fips = row[1L] + row[a] 
rate = float(t row[8].strip() ) 
unemployment[full_fips] = rate 
excCept: 
pass 


下 面 用 Beautiful Soup 来 解析 SVG 文件 。 绝 大 多 数 标 签 都 有 一 个 开始 标签 和 一 个 结束 标签 , 但 
也 有 一 些 目 关 闭 标 签 ， 这 些 需要 专门 指定 。 之 后 用 findA11() 困 数 来 检索 地 网 中 的 所 有 路 径 。 


soup = BeautifulSoup(svg, selfClosingrags=['defs','sodipodi:namedview’' ]) 
paths = soup.findAllC'path') 


然后 把 颜色 ( 我 从 ColorBrewer 得 到 的 ) 存 储 进 一 个 Python 列表 。 这 是 一 个 延续 性 的 配色 方案 ， 
种 有 多 个 色 度 ， 由 紫色 渐 到 红色 。 


colors = ["#FlEEF6", "#D4B9DA", "#C994C7", "#DF6E5BO", "#DD1C77", “#980043"] 


我 们 开始 接近 高 漳 了 。 正 如 我 刚才 所 说 ， 我 们 要 修改 SVG 文件 里 每 一 条 路 径 的 style 属 性 。 
现在 我 们 只 对 填充 色 感 兴趣 ,但 为 了 让 事情 更 容易 点 ， 我 们 可 以 蔡 换 整个 style 而 不 是 仪 仪 只 葵 
换 掉 填充 色 。 我 将 位 于 "stroke" 后面 的 十 六 进 制 数值 改 成 了 #ffffff (也 就 是 日 色 )。 这 样 一 来 
边界 线 就 由 当前 的 灰色 变 成 了 白色 。 

path_style = 'font-size:]l2px;fill-rule:nonzero;stroke:#fffff;stroke- 

opacity:l];stroke-width:0.1;stroke-miterlimit:4;stroke- 

dasharray:none;stroke-linecap:butt;marker-start:none;stroke-— 

linejoin:bevel;fill:' 


与 此 同时 ， 我 还 把 fi11 挪 到 了 代码 末端 ， 并 且 把 它 的 值 留 为 空 。 因 为 这 一 部 分 需要 根据 各 
个 县 的 失业 率 来 定 。 

终于 ,我 们 要 开始 修改 颜色 了 。 我 们 可 以 循环 处 理 每 一 条 路 径 〈 州 边界 线 和 和 夏威夷、 阿拉 斯 
加 的 分 阳线 之 外 ) 及 其 对 应 的 颜色 。 如 末 失 业 座 遍 于 10%， 就 用 较 深 的 颜色 ; 如 末 低 于 2， 则 用 
最 浅 的 颜色 。 


for p in paths: 





























if pid'] not in [State Lines", "separator'"]: 


# pass 
try: 


rate = unemployment[pL'id']] 
excCept: 
continue 
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1f rate > 10: 

color class = 5 
elif rate > 8: 

color class = 4 
elif rate > 6 

color class = 3 
elif rate > 4: 

color _ Class = 2 
elif rate > 2: 

color_class = 1 
else: 

color_class = 0 


color = colors[color class] 
pl'style'] = path_style + color 


最 后 一 步 是 用 prettifyQ 来 输 册 SVG 文件。 该 函数 可 以 把 我 们 的 soup 转 化 为 一 个 浏览 各 有 
够 理解 的 字符 串 。 


print soup.prettify() 





了 > 大 家 可 以 在 这 里 获得 完整 的 脚本 : http://book.flowingdata.com/ch08/regions/colorize_sveg.py.txt。 





现在 还 需要 做 的 就 是 运行 Python 脚本 ， 并 将 输出 存储 为 一 个 新 的 SVG 文件 ， 名 字 可 以 叫做 
colored_map.sve( 见 图 8-17 )。 


往生 后 Terminal 一 bash 一 86x25 


Mathan-Yous-MHacBDook-Prosregions 了 LowingD 中 python colorize_svg.py > colored_map .sw 





图 8-17 ”运行 Python 脚本 并 将 输出 存储 为 一 个 新 的 SVG 文件 
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在 Ilustrator 或 者 Firefox 、Safari 、Chrome 等 现代 浏览 硕 中 打开 我 们 新 鲜 热 辣 的 等 值 区 域 图 ， 
就 能 看 到 广 否 劳动 的 成 果 了 ， 如 图 8-18 所 示 。 现 在 很 容易 看 出 来 在 2010 年 8 月 美国 有 哪些 地 方 的 
失业 率 较 高 。 很 明显 ， 西海岸 大 部 分 地 区 和 东南 部 许多 地 区 的 失业 率 较 高 ， 阿拉斯加 和 密 欣 根 的 
形势 也 很 严峻 。 而 美国 中 部 大 多 数 县 的 失业 率 相 对 较 低 。 

困难 的 部 分 已 经 过 去 ， 我 们 现在 可 以 尽情 对 地 图 进行 视觉 上 的 优化 了 。 在 Ilustrator 中 打开 
SVG 文件 ， 修 改 边框 颜色 和 宽度 、 添 加 注释 ， 绘 制 出 一 幅 完 整 的 网 表 以 便 更 多 人 能 够 理解 。( 提 
示 : 图 例 还 是 必 不 可 少 的 。) 

最 棒 的 是 ， 这 段 代码 是 可 重用 的 , 我 们 可 以 将 其 应 用 到 其 他 使 用 FIPS 码 的 数据 集中 去 。 或 者 
对 于 同样 的 数据 集 ， 我 们 还 可 以 自由 改变 配色 方案 ， 从 而 设计 出 适合 目 己 数据 风格 的 地 图 。 






































图 8-18 ”显示 失业 率 的 等 值 区 域 图 


根据 手中 的 数据 ,我 们 还 可 以 修改 临界 值 来 调整 每 个 地 区 的 颜色 。 之 前 的 例子 中 ,我 们 使 用 
了 相等 的 临界 值 ， 各 个 地 区 按 6 种 色 信 进行 着 色 ， 每 2 个 百分比 一 个 等 级 。 失 业 率 超过 10 多 的 所 有 
县 都 归 为 同一 个 等 级 ， 然 后 失业 率 在 8% 和 10% 之 间 的 是 一 个 等 级 ， 之 后 是 6%~8% ， 依 此 类 推 。 
另 一 种 定义 临界 值 的 常用 方法 就 是 利用 四 分 位 数 , 也 就 是 只 有 四 种 颜色 ,每 一 种 颜色 代表 地 区 总 
数 的 1/4。 

比如 说 ， 对 于 这 些 失 业 率 的 下 四 分 点 、 中 四 分 点 和 上 四 分 点 分 别 是 6.9%、8.7% 和 10.8%。 这 
表示 有 1/4 的 县 失业 率 低 于 6.9%、1/4 的 县 失业 率 在 6.9% 和 8.7% 之 间 、1/4 的 县 失业 率 在 8.7% 和 
10.8% 之 间 ， 最 后 1/4 的 县 失业 率 高 于 10.8%。 要 想 做 到 这 一 点 ， 可 以 按 以 下 代码 修改 颜色 列表 。 
这 是 一 个 紫色 的 配色 方案 ， 每 1/4 对 应 一 种 颜色 。 


colors = ["#f2fOf7", "#cbc9e2", "#9e9ac8", "#6ala3'"] 
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然后 用 刚才 的 几 个 四 分 点 在 for 循 环 中 修改 着 色 条 件 。 


1f rate > 10.8: 
color class = 3 
elif rate > 8,7: 
color_class = 2 
elif rate > 日 ,9: 
color class = 1 
else; 
color class = 0 


像 之 前 那样 运行 脚本 并 存储 ， 得 到 图 8-19。 请 注意 现在 着 色 的 县 数量 稍 有 增多 。 





图 8-19” 按 四 分 位 数 区 分 的 失业 率 





为 了 提升 代码 的 可 用 性 , 我 们 可 以 通过 程序 来 计算 四 分 位 数 ， 而 不 是 依 徘 手 写 代 人 码 。 这 一 过 
程 在 Python 里 面 非常 简单 。 把 数值 存储 为 一 个 列表 ， 按 由 小 到 大 排序 ， 然 后 找到 第 1/4、1/2 和 3/4 
的 几 个 数值 。 具 体 来 说 ， 在 本 例 中 我 们 可 以 修改 colorize_svg.py 中 的 第 一 个 循环 ， 使 之 只 存储 失 
业 率 。 

unemployment = {} 

rates_only = [] # To calculate quartiles 

min_value = 100; max_value = 0; past_header = False 

for row 1n reader: 

if not past_header.: 
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past_header = True 
continue 


try: 
full_fips = row[l] + row[2] 
rate = floatf row[].stripC) ) 
unemployment[full_fips] = rate 
rates_only.appendtrate) 
except: 
pass 


然后 我 们 可 以 对 数组 进行 排序 ， 并 找 出 那儿 个 四 分 位 煞 。 


# 四 分 位 数 

rates_only,sorteC) 

ql _index = 1nt( 0.25 * lentrates only ) 
ql = rates_ only[9ql_index] # Bb.9 


q2_index = 1ntk 0.3 * lentrates_only) ) 
q2 = rates_only[gq2_index] # B.7 


q3_index = int(C 0.75 * len(trates_only) > 

q3 = rates_only[gq3_index] # 10.8 

现在 我 们 不 必 手 动 在 代码 里 输入 6.9、8.7 和 10.8 这 几 个 数值 了 ， 而 可 以 用 ql、q2 和 q3 来 代替 
它们 。 通 过 程序 来 计算 这 些 值 的 好 处 在 于 , 我们 可 以 方便 地 将 代码 重用 于 不 同 的 数据 集 ， 只 需 变 
动 CSV 文 件 即 可 。 

选择 何 种 色彩 标尺 取决 于 我 们 手中 的 数据 ， 以 及 希望 传达 何 种 讯 足 。 对 本 例 中 的 数据 集 ， 我 
更 至 欢 线性 标尺 ， 因 为 它 能 更 好 地 表现 出 分 布 , 并 且 突 出 显示 出 整个 国家 中 失业 率 相 对 较 蜗 的 地 
区 。 以 图 8-18 为 基础 , 我 们 可 以 添 加 图 例 、 标 题 和 引文 , 从 而 得 到 一 幅 更 加 完善 的 图 表 , 如 图 8-20 
所 不 。 

2. 绘制 国家 的 地 图 

上 例 中 为 县 看 色 的 过 程 并 不 只 针对 于 县 这 一 级 别 , 我 们 还 可 以 重复 同样 的 步骤 为 州 或 者 国家 
着 色 。 你 需要 的 只 是 每 个 地 区 带 有 唯一 一 的 SVG 文件 〈 从 维基 百科 上 很 容易 获取 )， 以 及 与 ID 适 
配 的 数据 即 可 。 现 在 让 我 们 用 来 日 世界 银行 的 公开 数据 来 试 一 试 。 























提示 世界 银行 是 按 国家 划分 的 最 完整 的 人 口 统计 数据 来 源 之 一 。 它 一 般 都 是 我 的 首选 。 


让 我 们 看 看 2008 年 各 国 获 得 安全 饮用 水 源 的 城市 居民 百分比 数据 。 大 家 可 以 从 世界 银行 数据 
网 站 下 和 载 到 Excel 文 件 : http://data.worldbank.org/indicator/SH.H2O.SAFE.UR.ZS/countries。 为 方便 
起 见 ， 也 可 以 下 载 经 过 我 精简 后 的 CSV 数 据 文 件 ， 地 址 是 http://book .flowingdata.com/ch08/ 
worldmap/water-sourcel.txt。 其 中 有 一 些 国家 的 数据 丢失 了 ， 这 在 国家 级 别 的 数据 中 很 常见 。 我 
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已 经 在 CSV 文 件 中 删除 了 这 些 行 。 


2010 年 8 月 的 失业 率 状况 
2009 年 8 及 鲍 天 平 饼 先 业 率 为 9,7%。， 年 之 扣 的 半 艾 失业 率 并 未 改 杰 大多， 体 留 在 9.6%I 罗 水 半 。 


失业 率 〈%) 





图 8-20 ” 带 有 标题 、 引 文 和 图 例 的 最 终 地 图 


数据 共有 7 列 。 第 一 列 是 国家 名 称 ， 第 二 列 是 国家 代码 〈 这 是 否 能 变 成 我 们 的 唯一 ID? )， 而 
后 五 列 则 是 1990 一 2008 年 的 百分比 。 

要 找 底层 地 图 ， 可 以 再 次 求助 维基 百科 。 在 搜索 SVG 世 界 地 图 时 ， 我 们 可 以 找到 很 多 版 本 ， 
统一 用 这 一 张 : http:Wen.wikipedia.org/wiki/File:BlankMap-World6.svge。 下 载 完整 分 辨 率 ( Full 
resolution ) 的 SVG 文件 ， 存 储 到 与 存放 数据 相同 的 文件 夹 。 如 图 8-21 所 示 ， 这 是 一 个 空白 的 世界 
地 图 ， 颜 色 是 灰色 ， 融 有 日 色 的 边界 线 。 

在 文本 编辑 各 里 面 打 开 SVG 文 件 。 目 然 ， 它 是 一 个 XML 格 式 的 文本 ,但 是 内 容 的 格式 与 我 
们 上 个 例子 稍 有 不 同 。 路径 没有 ID, 而 且 style 属 性 也 没有 用 上 。 不 过 ,path 标 签 里 有 一 个 类 名 ， 
看 上 去 好 像 是 国家 代码 ， 但 只 有 两 个 字母 。 而 世界 银行 数据 中 的 国家 代码 有 三 个 字母 。 

世界 银行 的 资料 显示 ， 他 们 使 用 的 是 ISO 3166-1 三 字母 码 。 而 来 自 维基 百科 的 SVG 文件 用 的 
则 是 ISO 3166-1 二 字母 码 。 我 知道 这 些 名 词 看 起 来 很 中 人, 但 不 用 侦 张 , 我 们 根本 不 需要 记 住 这 些 。 
你 只 需要 知道 维基 百科 为 此 提供 了 一 份 转换 表格 , 地 址 是 http:/en.wikipedia.org/wikiISO_3166-1。 我 
将 这 份 表格 复制 粘贴 进 了 Excel， 并 将 重要 内 容 存 成 了 一 个 文本 文件 ， 其 中 一 列 是 二 字母 梧 ， 夯 一 
列 是 三 字母 码 。 下 载 地 址 是 http://book.flowingdata.com/ch08/worldmap/country-codes.txt。 我 们 将 用 这 
份 表格 在 两 种 国家 代码 间 切 换 。 
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图 8-21 至 日 的 世界 地 图 


至 于 修改 各 个 国家 的 样式 ， 我 们 也 可 以 稍微 换 一 种 做 法 。 这 次 不 再 了 直接 修改 path 标 签 里 的 
属性 了 ， 试 试用 路 径 外 部 的 层 县 样式 表 (CSS，Cascading Style Sheets ) 来 为 各 个 地 区 着 色 。 

在 SVG 和 CSV 文 件 相 同 目录 下 创建 一 个 名 为 generate_css.py 的 文件 。 再 次 导入 CSV 工 具 包 来 
载 和 SCV 文件 中 的 数据 ， 包 括 国家 代码 和 获得 水 资源 的 人 口 百 分 比 。 











import csyv 
codereader = csv.reader(opent'country-codes.txt', ‘'r’), delimiteéer="\t") 
waterreader = csv.reader(open({'water-sourcel.txt', ‘'r'), delimiter="\t") 


然后 存储 国家 代码 ， 以 便 将 三 字母 但 转变 为 二 字母 码 。 
alpha3to2 = 1] 
i=0 


next(codereader) 
for row in codereader: 


alpha3to2[row[i]] = row[0] 
这 样 能 把 代码 存储 进 一 个 Python 字 典 ， 其 中 三 字母 码 是 关键 词 ， 而 二 字母 码 是 具体 的 值 。 
现在 和 上 个 例子 一 样 ， 循 环 处 理 每 一 行 水 数据 ， 并 根据 当前 国家 的 具体 值 设 置 一 个 颜色 。 
1=00 
next(waterreader) 
for row in waterreader: 











if row[l] in alpha3to2? and row[6] : 
alpha2 = alpha3to2[row[l1]].lowerd) 
pct = 1ntCrow[6]) 


1 + 1 


这 段 脚 本 执行 了 以 下 几 个 步 又 : 


if pct == 100: 


fill = "#08589E" 
elif pct > 90: 

fill = "#08589FE" 
elif pct > 80: 

fill = "#4EB3D3" 
elif pet > 70: 

fill = "#7BCCC4" 
elif pet > 60: 

fill = “#A8DDB5 
elif pet > 0: 

fill = "#CCEBCS" 
else: 

fill = "#EFF3FF'" 
print .+ alpha2 + 


(1) 避 开 CSV 文 件 的 头 部 ; 
(2) 开始 循环 读 取水 数据 ; 


(3) 如 果 有 二 字母 码 对 应 于 CSV 的 三 字母 码 ， 并 且 该 国家 有 2008 年 的 数据 ， 那 么 就 找到 了 对 
应 的 二 字母 码 ; 

(4) 根据 百分比 数据 选择 合适 的 填充 色 ; 

(5) 为 每 行 数据 都 输出 一 行 CSS。 

运行 generate_css.py 并 将 输出 保存 为 style.css。 该 CSS 的 前 几 行 应 该 类 似 这 样 : 


.af 
.al 

.dz 
,ad 
.ao 
.ag 
.ar 
.a 
.AW 
.al 


人 
人 
人 
{ 
{ 


i 
i 
i 
i 
fi 
Fe 
i 
mi 
fi11: 
三 


#7BCCC4 
#08589E 
#4EB3D3 
#08589E 
#CCEBCS 
#08589E 
#08589E 
#08589E 
#08589E 
#08589E 


Oe 


{ fill: 


"+ fill + | 


} 


8.3 


地 区 


这 是 标准 的 CSS。 例 如 第 一 行 会 把 所 有 类 名 为 af 的 路 径 的 填充 色 改 为 #7BCCC4。 


在 文本 编辑 天 里 面 打 开 style.css， 并 复制 所 有 内 容 。 然 后 打开 SVG 地 图 ， 将 复制 的 内 容 粘 贴 
到 oceanxx 的 花 括 号 下 面 ， 大 概 在 第 135 行 。 现 在 我 们 已 经 创建 了 一 幅 世 界 范 于 的 等 值 区 域 网 ， 
并 根据 各 国 获 得 安全 饮用 水 源 的 人 口 百 分 比 着 了 色 , 效果 如 图 8-22 所 示 。 深 蓝 色 表示 100%， 而 浅 





绿色 代表 日 分 比较 低 。 依 然 呈 灰 色 的 国家 表示 其 数据 未 知 。 
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图 8-22 ”显示 了 安全 饮用 水 资源 的 世界 范围 等 值 区 域 图 
最 棒 的 是 ， 现 在 你 可 以 下 载 世 界 银行 的 任意 数据 集 ( 有 很 多 )， 而 只 需 改 动 几 行 代码 就 能 快速 
为 它们 创建 等 值 区 域 图 了 。 要 想 让 网 8-22 的 网 形 再 漂亮 点 ， 我 们 可 以 继续 用 Ilustrator 打 开 SVG 文 件 
进行 编辑 。 这 幅 地 图 主要 还 需要 一 个 标题 和 用 于 说 明 各 颜色 意义 的 图 例 ， 最 终 效果 如 图 8-23 所 示 。 








安全 饮用 水 资源 的 获取 
大 多 数 大 邦 能 转 得 洁 诉 、 可 秘 用 的 水 痪 产 ， 也 并 不 十 丝 个 人 孝 这 么 蔡 运 。 这 上 旺 


Source: The World Bank/FLOWINGDATA 





图 8-23 ”完成 的 世界 地 图 ( 为 见 彩 插图 8-23 ) 


8.4 ”跨越 空间 和 时 间 


之 前 的 那些 例子 让 我 们 能 够 对 多 种 数据 类 型 ( 既 有 定性 的 也 有 定量 的 ) 进行 可 视 化 。 我 们 可 
以 根据 要 讲 的 故事 选择 合适 的 颜色 、 类 型 和 标记 符号 , 为 地 图 添加 注释 突出 显示 有 具体 的 地 区 或 热 
点 ， 还 可 以 放大 到 以 国家 或 县 为 单位 。 不过， 这 还 不 是 全 部 ,我 们 还 能 更 进一步 。 如 来 再 引入 为 
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一 维度 的 数据 ， 我 们 就 能 看 到 涵盖 时 间 和 空间 的 变化 。 

在 第 4 章 我 们 用 抽象 的 线条 和 图 表 对 时 间 进行 了 可 视 化 ， 这 很 有 用 。 但 如 果 在 数据 中 附加 了 
位 置信 息 ,就 能 通过 地 图 更 为 直观 地 了 解 到 模式 和 变化 ,而 且 观 察 那些 物理 距离 相近 的 地 区 分 类 
和 群 组 也 容易 得 多 。 

最 标的 是 ， 在 涵盖 时 间 和 空间 的 数据 可 视 化 中 ， 我 们 可 以 用 上 已 经 学 到 的 理论 和 技巧 。 




















8.4.1 系列 组 图 


我 们 在 第 6 章 中 见识 过 这 一 技巧 。 当 时 可 视 化 的 是 跨越 多 个 分 类 的 数据 之 间 的 关系 ， 但 其 实 
它 同 样 也 适用 于 空间 数据 ， 如 图 8-24 所 示 。 与 之 前 的 小 型 柱状 图 表 不 同 ,这 次 用 的 是 小 尺寸 的 地 
图 ,每 一 张 地 图 代表 一 个 时 间 片 段 。 将 这 些 地 图 从 无 往 右 或 从 上 往 下 排列 ,我们 的 视线 目 然 就 会 
随 之 移动 ， 了 解 到 发 生 了 哪些 变化 。 








系列 地 图 
将 多 个 较 小 尺 于 的 地 图 放 在 一 起 ， 便 十 展现 模式 。 








图 8-24 ”地 图 系列 组 图 


比如 说 ， 在 2009 年 瓜 我 设计 了 一 幅 显 示 美 国 失业 认 的 图 表 ( 见 图 8-25 )。 实 际 上 我 用 的 就 是 
上 一 节 中 大 家 看 到 的 代码 〈 稍 有 变化 )， 但 我 将 其 应 用 到 了 多 个 时 间 片 段 上 。 








2004 一 2009 年 的 美国 失业 率 


2004， 全 美 平均 值 为 5.5% 2005，5.1% 2006，4.6% 2007，4.6% 2008，5.8% 2009 年 9 月 ，9.8% 


& 


妇 、- % 


从 2000 一 2004 年 ， 失 业 率 稳步 增 与 2004 年 相 比 ， 小 降 与 上 年 度 相 比 ， 该 年 度 全 美 失业 率 与 上 年 度 相 比 持平 ， 2008 年 ， 失 业 率 增长 。” 全美 平均 值 达到 了 1983 年 以 来 
长 ，2003 年 6 月 达到 峰值 6.3%。 在 “0.4 个 百分点 。 失业 率 下 降 了 近 10%。 ”但 我 们 可 以 看 到 在 西海 岸 和 密 。 超过 了 1 个 百分点 ， 的 最 高 点 ， 巍 值 为 10.1%。 自 
其 后 四 年 中 ， 失 业 率 稳步 降低 。 鞭 根 州 已 经 出 现 了 上 升 。 890 万 人 失去 了 工作 。 ”2008 年 4 月 以 来 ， 失 业 率 逐 月 
增长 ， 只 有 一 个 月 较 上 月 下 

失业 率 (%) 降 了 0.1%。 


= 
1 





图 8-25 ”2004 一 2009 年 的 美国 失业 率 
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很 容易 看 到 2004 一 2006 年 的 变化 ， 如 图 8-26 所 示 。 全 美的 平均 失业 率 在 这 一 阶段 呈现 出 下 降 


2006，4.6% 


从 2000 一 2004 年 ， 失 业 率 稳步 增长 ， 与 2004 年 相 比 ， 小 降 0.4 个 百分点 。 与 上 年 度 相 比 ， 该 年 度 
2003 年 6 月 达到 峰值 6.3%。 在 其 后 失业 率 下 降 近 10%。 
四 年 中 ， 失 业 率 稳步 降低 。 





图 8-26 ”2004 一 2006 年 的 美国 失业 率 


然后 到 了 2008 年 ( 见 图 8-27 )， 我 们 开始 看 到 失业 率 有 了 抬头 的 趋势 ， 尤 其 是 在 加 利 福 尼 亚 
州 、 俄 蒜 内 州 、 密 鞭 根 州 ， 以 及 美国 东南 部 的 一 些 县 。 

而 到 了 2009 年 ， 情 况 大 不 相同 了 ， 如 图 8-28 所 示 。 全 美 平均 值 增长 了 4 个 百分点 ， 而 县 的 颜 
色 变 得 非 第 深 。 


2008，5.8% 2009 年 9 月 ，9.8% 


全 美 平均 值 达到 了 1983 年 以 
2008 年 ， 失 业 率 增长 超过 了 1 个 来 的 最 高 点 ， 峰 值 为 10.1%。 


百分点 ，890 万 人 失去 了 工作 。 从 2008 年 4 月 以 来 ， 失 业 率 
逐 月 增长 ， 只 有 一 个 月 较 
上 月 下 降 了 0.1%。 





图 8-27 ”2008 年 的 失业 率 图 8-28 ”2009 年 9 月 的 失业 率 
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这 是 我 发 布 在 FlowingData 上 的 图 表 中 最 受 欢 迎 的 图 表 之 一 ， 因 为 人 们 能 很 清楚 地 看 到 这 种 
在 数 年 相对 停 洲 后 突 发 的 戏剧 性 转变 。 我 同时 也 用 到 了 OpenZoom Viewer， 它 能 让 读者 放大 到 高 
分 辩 率 图片， 以 全 着重 关注 自己 所 在 地 区 的 失业 率 是 如 何 变 化 的 。 














我 也 可 以 将 这 些 数 据 可 视 化 为 一 幅 时 间 序 列 图 表 ， 每 一 条 线 代表 一 个 县 。 但 是 美国 有 3000 
多 个 县 ， 图 表 会 非常 密集 ， 而 且 如 果 它 不 可 交互 ， 没 人 能 说 出 哪 条 线 代 表 哪 个 县 。 
8.4.2 ” 抓 住 郑 额 


并 不 是 只 能 创建 系列 地 图 才能 表现 出 变化 。 有 时 候 在 一 幅 地 图 中 只 对 变化 进行 可 视 化 反而 会 
更 有 意义 。 这 种 做 法 能 节省 空间 ， 而 且 它 突出 的 是 变化 而 非 单个 的 时 间 毛 段 ， 如 图 8-29 所 未 。 





差额 
关注 变化 本 禾 ， 调 扯 叶 间 片 段 





图 8-29 ”关注 变化 本 身 
这 次 我 们 从 世界 银行 下 载 城市 届 民 的 人 口 数据 , 与 之 前 获取 安全 水 资源 一 例 中 的 数据 比较 相 





似 。 每 一 行 代表 一 个 国家 ， 每 一 列 代表 一 年 。 然 而 , 城市 人 口 数据 是 指 一 个 国家 居住 在 城市 地 区 
的 人 数 的 粗略 计数 ， 基 于 这 种 计数 创建 的 等 值 区 域 图 ， 必 然 会 突出 显示 那些 较 大 的 国家 ， 因 为 这 
些 国家 的 总 人 口 数 更 多 。 所 以 要 想 用 两 幅 地 图 来 表现 2005 年 和 2009 年 的 城市 人 口 差距 ,就 必须 把 
绝对 数值 改 为 比例 ,否则 根本 没有 意义 。 而 要 做 到 这 一 点 ,我 们 必须 下 载 2005 年 和 2009 年 所 有 国 
家 的 人 口 数 据 ， 然 后 做 一 些 运 算 。 这 个 步骤 并 不 太 难 ,， 但 总 归 需 要 额外 的 工作 。 此 外 ， 如 果 变 化 
并 不 明显 ， 在 多 幅 地 图 中 也 是 很 难 被 发 现 的 。 

与 其 这 样 ， 我 们 不 如 找 出 其 中 的 差额 部 分 ， 并 将 其 显示 在 一 张 地 图 上 。 你 可 以 在 Excel 里 很 
容易 地 计算 出 来 ， 或 者 修改 之 前 的 Python 脚本 ， 然 后 绘制 出 单独 的 地 图 ， 如 图 8-30 所 示 。 

在 对 差额 进行 可 视 化 之 后 ,很 容易 看 出 来 哪些 国家 的 变化 较 大 ,哪些 国家 的 变化 较 小 。 与 之 
相 比 ， 图 8-31 显 示 了 2005 年 各 个 国家 居住 在 城市 的 人 口 比 例 。 

而 图 8-32 显 示 了 2009 年 的 这 一 数据 。 它 看 上 去 和 图 8-31 很 相似 ， 我 们 很 难 察觉 出 其 中 的 
不 同 。 
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图 8-31 2005 年 居住 在 城市 地 区 的 人 口 百分比 





图 8-32 ”2009 年 居住 在 城市 地 区 的 人 口 百分比 
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对 于 这 个 例子 来 说 , 很 明显 单 幅 地 图 反而 更 能 传达 信息 。 我 们 必须 让 谈 者 在 理解 城市 人 口 的 
变化 时 尽量 少 花 脑筋 。 很 容易 看 出 ,尽管 污 世 界 其 他 国家 相 比 , 非洲 许多 国家 居住 在 城市 的 人 口 
比例 较 低 ， 但 最 近 几 年 中 他 们 在 这 方面 的 增长 是 最 快 的 。 

别 筷 了 再 加 上 图 例 、 数 据 来 源 和 标题 ， 以 面 问 更 广泛 的 读者 群体 ， 如 图 8-33 所 示 。 





城市 人 口 的 变化 
仿 管 还 下 有 很 多 国家 上 拘 居 民 士 要 生生 在 农村 地 区 ， 在 过 去 
数 什 中 居住 在 城市 地 区 的 人 上 比 例 还 是 有 了 显 普 的 提升 。 


2005 一 2009 年 变化 的 
百分比 (%) 
WE > 25 
>>20 
>]15 
>10 


Source: The World Bank/FLOWINGDATA 





图 8-33 ”市 有 说 明 的 表现 差额 的 地 图 
8.4.3 动力 


更 明显 的 一 种 可 视 化 空间 和 时 间 变 化 的 方式 是 让 数据 “ 动 ”起 来 。 不 再 是 通过 单个 地 图 显示 
各 个 时 间 片 段 , 我 们 可 以 在 单个 可 交互 地 图 上 显示 这 些 变 化 , 活生生 地 展示 它们 发 生 的 过 程 。 这 
种 做 法 保持 了 地 图 的 直观 性 ， 同 时 又 允许 读者 按 自 己 的 方法 来 探索 数据 ， 
几 年 前 , 我 设计 了 一 张 地 图 , 展示 了 沃尔玛 在 美国 的 发 展 史 , 如 图 8-34 所 示 。 动画 始 自 于 1962 
年 阿肯色 州 罗杰斯 市 开办 的 第 一 家 沃尔玛 店铺 ,然后 一 直 前 进 到 2010 年 。 每 一 家 新 店 开张 ,地 图 
上 就 会 多 出 一 个 点 。 最 初 沃 尔 玛 的 增长 比较 缓慢 ,之 后 却 开始 像 病 毒 一 样 在 全 美 蔓延 。 它 不 断 发 
展 、 成 长 ， 在 各 地 进行 大 规模 的 收购 后 爆发 。 不 知 不 觉 中 ， 沃 尔 玛 已 经 无 处 不 在 了 。 8 | 























图 8-34 ”表现 沃尔玛 增长 的 动画 地 图 (为 见 彩 捅 图 8-34 ) 


在 当时 ， 我 做 这 张 地 图 只 是 为 了 学 习 Flash 和 ActionScript 而 已 ， 但 它 被 四 处 转载 ， 浏 览 量 达 
到 了 数 百 万 次 。 后 来 我 又 创建 了 一 幅 相 似 的 地 图 ， 显 示 了 塔 吉 特 百货 公司 (Target ) 的 发 展 历程 
( 见 图 8-35 )， 同 样 得 到 了 广泛 的 传播 。 




















图 8-3$ ”表现 塔 吉 特 百 赁 增长 的 动画 地 图 〈 另 见 彩 插图 8-35 ) 





8.4 ”跨越 空间 和 时 间 255 


了 > 访问 http://datafl.ws/198 观 看 塔 吉 特 百货 的 发 展 历程 。 





人 们 对 此 如 此 感 兴趣 , 有 两 个 主要 的 原因 。 首先 是 因为 动画 地 图 能 让 他 们 看 到 在 时 间 序 列 图 
中 无 法 看 到 的 变化 模式 。 和 负 规 的 网 表 只 能 显示 每 年 新 开张 的 店铺 数量 ( 如 果 你 的 故事 只 涉及 这 一 
层面 ， 当 然 没 问题 )， 而 动画 地 图 则 能 更 加 “有 机 ”地 展现 出 增长 的 状态 ， 对 于 沃尔玛 这 种 级 别 
的 对 象 来 说 尤其 如 此 。 

第 二 个 原因 是 这 幅 地 图 对 普通 大 众 来 说 非常 容易 理解 。 动 画 一 开始 我 们 就 能 明日 目 己 在 看 什 
么 。 我 并 不 是 说 那些 需要 花 时 间 才 能 理解 的 可 视 化 作品 没有 价值 , 实际 情况 往往 是 相反 的 。 然而 ， 
网 络 读者 对 时 间 的 妨 耐 力 是 有 限 的 , 而 这 幅 地 图 的 直观 性 (以 及 可 以 针对 目 己 感 兴趣 的 地 点 进行 
放大 ) 目 然 会 有 助 于 人 们 分 至 的 欲望 。 

创建 动态 增长 地 图 

在 本 例 中 ， 我 们 用 ActionScript 来 创建 沃尔玛 的 增长 地 图 。 我 们 会 用 到 ActionScript 的 地 图 库 
Modest Maps 来 生成 可 交互 的 基础 地 图 。 而 其 他 代码 则 需要 我 们 目 己 完成 。 大 家 可 以 在 
http:Wbook.flowingdata.com/ch08/Openings_src.zip 上 下 载 完 整 的 源 代 码 。 本 中 我 们 不 会 详细 讲解 
每 一 行 代码 和 文件 ， 而 只 会 介绍 最 重要 的 部 分 。 


了 > 访问 http://modestmaps.com 下 载 Modest Maps。 


在 第 5 草 中 ， 当 我 们 用 ActionScript 和 Flare 可 视 化 工具 包 创 建 堆 欠 面积 图 时 ,我 曾 强 烈 建议 用 
Adobe 的 Flex Builder。 它 能 让 ActionScript 的 编写 更 为 容易 ， 同 时 让 代码 更 有 条 理 。 当 人 然 ， 你 也 可 
以 在 一 个 标准 文本 编辑 器 里 面 写 代码 , 但 Flex Builder 可 以 一 站 式 解决 你 的 编辑 .调试 和 编译 工作 。 
本 例假 设 你 已 经 安装 了 Flex Builder， 不 过 你 要 在 Adobe 网 站 上 弄 个 ActionScript 3 编译 器 下 来 自然 
也 是 没 问 题 的 。 























说 明 最 近 Adobe 已 经 将 Flex Builder 改 名 为 Flash Builder。 两 者 间 有 一 些小 的 变化 ， 但 不 影响 我 
们 使 用 。 


了 > 请 下 载 完整 的 增长 地 图 代码 ， 以 跟 上 本 例 的 讲解 。 下 载 地 址 是 http:Wpook.flowingdata.comy 


ch08/Openings_Src.zip。 











首先 打开 Flex Builder 3， 在 左 侧 显示 当前 项 目 列表 的 边栏 内 单 击 右键 ， 然 后 在 弹出 某 单 中 选 
择 Import ( 守 入 )， 如 图 8-36 所 示 。 
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军 flare 
I flare.apps 


祝 | flare.demos 


rE - 


| Refresh 








图 8-36 ”导入 ActionScript 项 目 





选择 Existing Projects into Workspace ( 现 有 项 目 到 工作 空间 中 )， 如 图 8-37 所 示 。 


am mp | 
Select 


Create new projects from an archive file or directory. 


NS 


EI 
Select an import source: 


Vv 区 General 
区 Archive File 
a Breakpoints 
i Existing Projects into Workspace 
国 File System 


国 , preferences 
> 对 CVS 


bp EE Flex Builder 
be 狐 - Team 








图 8-37 现 有 项 目 


然后 ， 如 图 8-38 所 示 ， 单 击 Browse( 浏览 ) 按钮 找到 我 们 存放 刚才 下 载 代码 的 上 日 录 。 在 选择 
其 根 日 录 后 ，Openings 项 目 会 出 现在 项 目 窗 口中 。 


8.4 跨越 空间 和 时 间 257 


Import Projects 


Select a directory to search for existing Eclipse projects. 


© Select root directory: 1 /flowingD/Documents/Flex Builder 3/Openings 


© Select archive file: (Browse... ) 


Projects: 


Openings 





图 8-38 ”导入 Openings 项 目 


我 们 在 Flex Builder 中 的 工作 区 界面 应 该 类 似 于 图 8-39 所 示 。 


import com. flowingdata.gps.MarkersClip; 
窗 flareapps import com, modestmaps. Map; 
人 fare demos import com.modestmops,TneenMop; 
y Ha openings import com,modestnaps, core,MapExtent; 
» 双 bug import Com.nmodestnaps.geo.Location; 
Com modestnaps mapproviders .0penStreetMopProvider; 
9 com, modestmops .mopprovtders .mtcrosoft .ni 
了 SC 
» CB com flash. display. Sprite; 
» B95 | filosh, display, StageAlign; 

E: Flosh,disploy.StogeScoleMode; 
flosh,events, Event; 
flosh.events.MouseEvent; 
flosh, filters,ColorMatrixFilter; 
flosh, geom, ColorTronsfors; 
flosh,net, *; 
flash. text. TextField; 
flash, text ,TextFforaat; 





CE 


[SWFCwidthm"900", heightm"450", backgroundColorm"#FFFFFF", fromeRoten"32")] 
public class Openings extends Sprite 


Private vor stogeWidth:Number ~ 900; 
privote vor stogeHeight;Number = 450; 


privote var map:Mop; 

privote vor mopWidth:Nunber ~ StogeWtdth; 
privote var mopHeight;Number ” stogeHeight; 
privote vor markers:MarkersClip; 

private var navButtons:Sprite; 


privete var urllooder;URLLooders 
private vor locations:Array = new Array(); 
private vor openingDates:Array = New Array(); 


privote var yeorLobel;TextField; 

private var storeCount:TextField; 
private var textForanat:TextForaat; 
privote metaFformat: TextForamat; 


privote stonrtpoge:Sprtite = mew Sprite(); 
private endPage:Sprite = new Sprite(); 
privote playButton: Sprite; 


public function Openings() 
{ 





stoge, scoleMode » StogeScoleMode,NO_SCALE; 
stage.align = StageAlign,TOP_LEFT; 


sr nitiolize mp 
mop = New TneenMop(mapWidth, mapHeight, true, new OpenStreetMopPprovider()); 
mop. setExtentCnew MapExtent(SO0.259381, 24.324408, ~128.320313, -59.941406)); 


AI Groyscole ond tnvert mop 





图 8-39 ”导入 项 目 后 的 工作 区 
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所 有 的 代码 都 在 src 文 件 夹 中 。 这 其 中 包含 了 了 com 文件 夹 中 的 Modest Maps 和 gs 文件 夹 中 的 


TweenFilterLite， 它 们 有 助 于 实现 过 渡 效 果 。 








在 导入 Openings 项 目 后 ,我 们 就 可 以 开始 构建 地 图 了 。 这 一 过 程 分 两 部 分 ， 第 一 部 分 是 创建 


可 交互 的 基础 地 图 ， 第 二 部 分 是 添加 标记 符号 。 
@ 添加 可 交互 的 基础 地 图 
在 Openings.as 中 ， 前 面 几 行 代码 导 和 人 了 所 需要 的 工具 包 。 


1mport com.modestmaps.Map ; 

import com.modestmaps.TweenMap; 

import com.modestmaps.core,.MapExtent; 

import com.modestmaps.geo.Location; 

import com.modestmaps.mapproviders.0penStreetMapProvider:; 





import flash.display.Ssprite; 

import flash.display.StageAlign; 
import flash.display.StageSscaleMode; 
import flash.events.Event; 

import flash.events,.MouseEvyent; 

import flash.filters.ColorMatrixFilter:; 
import flash.geom.ColorTransform; 
import flash.text.TextField; 

import flash.net.*; 


第 一 段 代 人 码 从 Modest Maps 工 具 包 中 导入 了 几 个 类 ， 而 第 二 段 导 入 的 是 Flash 提 供 的 显示 对 象 
和 事件 类 。 每 个 类 的 名 称 是 什么 现在 并 不 重要 , 在 我 们 使 用 它们 时 自然 会 清楚 。 不 过 ， 第 一 段 中 
的 命名 模式 和 其 目录 结构 是 相符 的 ， 以 com 开 始 ， 然 后 是 modestmaps， 最 后 以 Map 结 尾 。 在 你 上 自 








己 写 ActionScript 代 人 码 时 ， 绝 大 多 数 时候 也 会 这 样 来 寻 和 类。 











在 public class 0penings extends Sprite 之 上 ， 有 关 编 详 后 的 Flash 文 件 的 几 个 变量 〈 





度 、 高 度 、 背 景 磊 色 和 帧 速 座 ) 都 进行 了 初始 化 。 


[SWFCwidth="900", height="450", backgroundColor="#ffffff",frameRate="32")] 


然后 ， 在 类 声明 的 后 面 ， 我 们 需要 指定 一 些 变 量 ， 并 初始 化 一 个 地 图 对 和 象 。 








private var stageWidth:Number = 900; 
private var stageHeight:Number = 450; 
Private var map:Map; 

private var mapWidth:Number = stageWidth.; 
private var mapHeight:Number = stageHeight; 


在 Openings() 函 数 的 括号 里 面 ， 我 们 可 以 利用 Modest Maps 来 创建 自己 的 第 一 个 可 交互 


地 图 。 
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stage.scaleMode = StagescaleMode.NO_SCALE; 
stage.align = StageAlign.TOP_LEFT: 


AAA Initialize map 
map = new TweenMap (mapWidth, mapHeight, true, new OpenStreetMapProvidert)); 


map,setExtenttnew MapExtent(50,259381], 24,324408, -128.320313, -59.941406)): 
addChild(map); 


和 在 lllustrator 里 面 一 样 ， 我 们 可 以 把 整个 交互 图 表 看 作 多 个 图 层 的 累加 。 在 ActionScript 和 
Flash 里 面 ， 第 一 层 是 舞台 ( stage， 或 者 说 画布 )。 我 们 将 其 设置 为 当 放 大 地 图 时 不 要 缩放 对 和 象 ， 
同时 以 舞台 的 左上 方 为 标准 来 排放 对 象 。 之 后 我 们 用 已 经 指定 好 的 变量 mapWidth 和 mapHeight 
对 地 图 进行 初始 化 ， 打 开交 互 功能 ， 并 使 用 了 来 自 OpenStreetMap 的 地 图 贴图 。 再 之 后 我 们 设 定 
了 地 图 范围 (MapExtent )， 将 地 图 的 框架 限定 在 了 美国 。 

MapExtent( 函数 中 的 坐标 就 是 经 纬度 ,它们 可 以 控制 边框 以 显示 世界 地 图 的 哪个 区 域 。 第 
一 个 和 第 三 个 数字 分 别 是 左上 和 角 的 经 度 和 纬度 ， 第 二 个 和 第 四 个 数字 分 别 是 右 下 角 的 经 度 和 纬 
度 。 

最 后 ， 通 过 addChi1d() 函数 将 地 图 添加 到 有 舞台 上 。 如 果 不 对 地 图 添加 任何 滤 镜 效果 ， 编 译 
代码 后 的 地 图 束 如 图 8-40 所 示 。 我 们 可 以 点 Flex Builder 左 上 角 的 Play (播放 ) 按钮 ， 也 可 以 在 主 
菜单 里 选择 Run ( 运行 ) 一 Run Openings ( 运行 Openings )。 


























Mexico 





图 8-40 ”使 用 了 OpenStreetMap 贴 图 的 空白 地 图 


运行 Openings 之 后 ， 结 果 会 在 系统 默认 的 Web 训 览 规 里 打开 。 现 在 地 图 上 还 什么 都 没有 ， 但 
我 们 可 以 随意 拖 动 它 , 感觉 还 是 很 酷 的 。 男 外 ， 如 果 你 不 太 喜 欢 这 种 风格 的 地 图 贴图 ， 也 可 以 试 
试 微软 的 道路 地 图 ( Microsoftroad map， 参见 图 8-41 ) 或 者 雅虎 的 混合 地 图 ( Yahoo! hybrid map， 
参见 图 8-42 )。 
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图 8-41 使 用 了 微软 这 路 地 图 的 空白 地 图 
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图 8-42 使 用 了 雅虎 混合 地 图 的 空 日 地 图 












































| D> 加 果 从 愿意 ， 也 可 以 用 你 自己 的 贴图 。 在 Modest Maps 网 站 上 有 很 棒 的 教程 。 | 


我 们 也 可 以 应 用 滤 镜 来 尝试 修改 地 图 的 闫 色 。 比 如 说 , 我 们 可 以 在 刚才 已 写 的 代码 下 面 添加 
以 下 地 图 ， 其 中 的 mat 数 组 的 长 度 为 20， 取 值 范围 为 0~1。 每 个 数值 代 
表 各 个 像素 点 获得 了 多 少 红 色 、 绿 色 、 蓝 色 和 透明 度 。 


var mat:Array = [0.24688,0.48752,0.0656,0,44,.7,0.24688,0.48752, 
0.0656,0,44.7,0.24688,0.48752,0.0656,0,44.7,0,0,0,1,0]; 

var colorMat:ColorMatrixFilter = new ColorMatrixFiltermat): 

map.grid.filters = [colorMat]; 
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了 > 访问 http://livedocs.adobe.com/flash/9.0/ActionScriptLangRefV3/flash/filters/ColorMatrixFilter.html 


浏览 Adobe 的 参考 手册 ， 以 了 解 如 何在 ActionScript 中 用 闫 色 和 矩阵 来 定制 对 姑 。 








如 图 8-43 所 示 ， 地 图 完全 变 灰 了 ， 这 会 为 突出 显示 我 们 即将 从 加 在 地 图 上 的 数据 市 来 方便 。 
地 图 的 作用 更 像 是 育 景 ， 而 不 会 哈 宪 竺 主 ， 转 移 访 者 的 注意 力 。 











图 8-43 ”在 应 用 小 镜 之 后 得 到 的 灰 度 地 图 





我 们 也 可 以 通过 颜色 转换 ( color transform ) 来 反 转 颜色 。 


map.grid.transform.colorTransform = 
new ColorTransformd-],-1,-1,1,255,255,255,0): 


这 样 会 把 日 色 变 成 壮 色 ， 需 色 杰 成 月 色 ， 如 图 8-44 所 示 。 









二 Cuba SN NF Ur 
4 SS ET 


图 8-44 ”通过 颜色 转换 后 黑白 颠倒 的 地 图 
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要 想 创 建 放 大 和 缩小 按钮 , 首先 要 写 一 个 生成 按钮 的 函数 。 你 可 能 会 认为 应 该 会 有 一 种 默认 
的 快速 方法 能 实现 这 一 点 ,但 其 实 还 是 需要 不 少 代 码 的 。 关 于 makeButton(O 〇 的 函数 定义 位 于 
Openings 类 的 底部 。 








public function makeButton(Cclip:Sprite，name:sString，1abelText:string， 
action:Function):Ssprite 


{ 


} 


var button:Sprite = new Spritef{); 
button.name = name， 
clip.addChild(button); 


var label:TextField = new TextFieldC): 
1label.name = ' ]abel] ， 

label.selectable = false: 
label.textColor = Oxffffftf; 
1label.text = labelText: 

label.width = label.textWidth + 4; 
label.height = label.textHeight + 3; 
button.addChildlabel): 


button.graphics.moveTot0Q0, 9); 
button.graphics.beginFilltOxFDBB30, 1); 
button,.graphics.drawRect0, 0, label.width, label.height):; 
button.graphics.endFill1(); 


button.addEventListener(MouseEvent.CLICK, action); 
button.useHandCtursor = trueé; 

button.mouseChildren false: 

button.buttonMode = true; 


return button; 





然后 创建 为 一 个 函数 来 使 用 这 个 函数 ， 并 且 绘 制 出 我 们 想 要 的 按钮 。 以 下 代码 利用 
makeButton() 函数 创建 了 两 个 按钮 ， 一 个 是 放大 ,一 个 是 缩小 , 并 将 它们 安置 在 地 图 的 左下 角 。 


f/f 绘制 导航 按 甸 
private function drawNavigation():void 


{ 


/A 导航 按钮 (放大 和 缩小 ) 
var buttons:Array = new Array(); 


navButtons = new Spritetl); 

addChildtnavButtons); 

buttons.push(makeButton(navButtons, ‘plus’, ‘+', Map.zoomIn)); 
buttons.pushtmakeButton(navButtons, minus' ， ~—', Map.zoo0mOut)); 
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Var nextX'Number = 0:; 
fortvar T:Number = 0; 1 < buttons.length; i++) 1 
var currButton:;Sprite = buttons[i]; 
Spritelbuttons[i]).scaleX = 3; 
Sprite(buttons[i]).scaleY = 3; 
Spritetbuttons[1]).x = NextX; 
nextX += 3*Sprite(buttons[i]).getCchildByNameC'label').width.; 
} 
navButtons.x = 2; navBUttons.y = map.height-navButtons.height-2; 


} 





不 过 ， 由 于 这 是 一 个 函数 ， 如 来 我 们 不 调用 它 ， 代 人 码 是 不 会 执行 的 。 在 Openings (也 数 ， 
也 就 是 所 请 的 构造 函数 中 ， 在 滤 镜 代码 的 下 面 沪 加 drawNavigation()。 现 在 我 们 可 以 放大 感 兴 
趣 的 位 置 了 ， 如 图 8-45 所 示 。 


Hedwood 





图 8-45 ”能 够 放大 缩小 的 地 图 
基础 地 图 已 经 全 部 搞定 了 。 我 们 选择 了 贴图 ， 设置 了 变量 ， 还 让 交互 变 得 可 行 。 
@ 添加 标记 符 与 
下 面 的 步骤 是 载 入 沃尔玛 的 店铺 地 址 数据 ， 并 为 每 一 家 新 开张 的 店铺 创建 标记 符号 。 在 构造 
陋 数 里 ， 以 下 代码 从 革 个 URL 载 人 了 一 个 XML 文件 。 当 文件 完成 下 载 后 ， 就 会 调用 一 个 名 为 
onLoadLocations0) 的 函数 。 





var UrlRequest:URLRequest = 
new URLRequestC'http://projects.f lowingqdata.com/walmart/walmarts_ 
new.xml]'): 
urlLoader = new URLLoaderry 
urlLoader.addEventListener(Event.COMPLETE, onLoadLocations); 
urlLoader.load(turlRequest); 
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很 明显 ， 下 一 步 是 创建 这 个 onLoadLocations(《) 函 数 。 它 会 读 取 XML 文 件 并 将 数据 存储 到 
一 个 数组 中 ， 方 便 后 面 使 用 。 不 过 在 此 之 前 ， 我 们 需要 在 navButtons 后 面 先 对 其 他 一 些 变量 进 
行 初 始 化 。 








private var urlLoader:URLLoader; 
private var locations:Array = new Array(); 
private var openingDates:Array = new Arrayt(); 








些 变 量 会 用 在 onLoadLocations() 里 面 。 经 度 和 纬度 被 存储 在 locations 里 面 ， 而 开张 日 期 
具体 年 份 被 存储 在 openingDates 里 面 。 


private function onLoadLocations(e:Event):void { 
var Xml:XML = new XMLce,.target.data): 
for each(lvar wi:* in xml.walmart) { 
locations.push(new Location(tw.latitude, w.longitude)): 
openingDates,push(String(tw.ocpening_date)); 





这 
其 


根据 


} 
markers = new MarkersCliptmap, locations, openingDates); 
map.addChildtmarkers); 


} 

下 一 步 是 创建 MarkersClip 类 。 在 之 前 讨论 的 那个 日 录 结 构 中 ， 在 com 目 录 下 有 一 个 名 为 
flowingdata 的 目录 ， 而 在 flowingdata 目 录 下 有 一 个 gps 目 录 。 最 终 ， 在 com 一 flowingdata 一 gps 目 
录 下 是 MarkersC1ip 类 。 这 就 是 即将 存放 所 有 沃尔玛 标记 符号 (或 者 说 在 地 图 之 上 的 数据 图 层 ) 
的 容 入 。 

和 之 前 一 样 , 我 们 需要 导入 将 要 用 到 的 类 ,通常 我 们 可 以 在 需要 的 时 候 再 在 代码 中 添加 它们 ， 
但 为 了 简单 起 见 ， 我 们 也 可 以 一 次 性 添加 所 有 会 用 到 的 类 。 

import com.modestmaps.Map; 

import com.modestmaps.events.MapEvent; 














import flash.display.sprite,; 
import flash.events.TimerEvent; 
import flash.geom.Point; 
import flash.utils.Timer; 


前 两 个 来 自 于 Modest Maps， 而 后 四 个 是 Flash 目 有 的 类 。 然 后 我 们 在 MarkersC1ip(0) 国 数 之 
前 设置 好 变量 。 同 样 地 ,我 们 可 以 在 需要 时 才 添 加 它们 , 但 也 可 以 现在 就 全 部 添加 ， 从 而 直接 前 
进 到 类 里 面 的 函数 。 

protected var map:Map:; 7 底 图 


public war markers:Array, ff 存放 标记 符号 的 容器 
public var 1s9tationary:Boolean 


public var locations:Array; 
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private var openingDates:Array; 


private var storesPerYear:iArray = new Array(); 

private var spyIndex:Number = 0; // 每 年 开张 的 店铺 数 索 引 
private var currentYearCount:Number = 0; // 目前 已 显示 的 店铺 数 
private var currentRate:Number; AZAA 待 显示 的 店铺 数 

private var totalTime:Number = 90000; AAA 约 1.3 分 钟 

private var timePerYear:Number; 

public var currentYear:Number = 1962;  // 从 初始 年 起 


Private var xpoints:Array = new Array(); // 转换 过 的 经 度 
private var ypoints:Array = new Array(); // 转换 过 的 纬度 


public var markerIndex:Number = 0; 
private var starting:PonNnt; 

private var pause:Boolean = false; 
public var scaleZoom:Boolean = false; 


在 MarkersC1ip() 构 造 函 数 中 ,我们 存储 好 即将 被 传递 到 类 的 变量 ， 


间 和 店铺 的 坐标 值 这 些 东 西 。 你 可 以 把 这 一 步 看 作 是 设置 。 





变量 storesPerYear 存 储 的 是 在 给 定年 份 中 有 多 少 家 新 店 开 张 。 比 如 说 , 第 
J 而 第 二 年 没有 后 铺 开 张 。 如 果 你 要 将 这 段 代码 用 于 目 己 的 数据 ， 
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并 计算 出 诸如 每 年 的 时 





-年 有 一 家 店铺 
就 需要 适当 地 更 新 


storesPerYear 这 个 变量 。 你 也 可 以 写 一 个 吗 数 来 计算 出 每 年 开张 的 店铺 数量 或 地 址 , 以 便 提高 


代码 的 可 重用 性 。 为 了 简单 起 见 ， 本 例 中 下 接 将 数组 写 死 了 。 


this.map = map; 


this.x = map.getWidth(} / 2; 
this.y = map.getHeight() / 2; 


this.locations = locations: 
setPointsc): 
setMarkerscC): 


this.openingDates = openingDates,; 
var tempIndex:int = 0; 


storesPerYear = [1,0,1,1,0,.2,5,5,5,15,17,19,25,19,27, 
39,34,43,54,150,63,87,99,110,121,142,125,13]1,178, 
163,138,156,107,129,53;60,66,80,105,106,114 ,96， 
130,118,37] ; 

timePerYear = totalTime / storesPerYear.1ength 


在 MarkersC1ip 类 中 还 有 其 他 两 个 函数 : setPoints() 和 setMarkers()。 前 一 个 将 经 度 和 
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纬度 坐标 转换 成 x 轴 和 y 轴 坐标 ， 而 后 一 个 则 将 标记 符号 放置 在 地 图 上 (但 并 未 显示 ) 以 下 是 对 
setPoints( 的 定义 。 它 使 用 了 Modest Maps 提 供 的 一 个 内 置 函 数 来 计算 x 值 和 y 值 ， 然 后 将 新 的 


坐标 值 存 储 在 xpoints 和 ypoints 中 。 
public function setPointsfJ:volid { 

if (locations == nully { 
return; 

} 

var p:Point; 

for Cvar 1:int = 90; i < locations.length; i++) { 
P = map.locationPoint( locations[1i], this); 
xpoints[1i] = p.x; 
ypoints[i] = p.y; 


} 
第 二 个 函数 setMarkers() 使 用 了 setPoints() 存 储 的 点 坐标 ， 然 后 将 相应 的 标记 符号 放置 


在 地 图 上 。 


protected function setMarkers(y:void 


| 
markers = new Array(); 
for (var 1:int = 0; 1 < locations,.length; 1++) 


l 


var marker:Marker = new MarkerC): 
addChildtmarker); 

marker.x = xpoints[i]; marker.y = ypoints([i]; 
markers.push(lmarkery: 


} 

该 函数 还 用 到 了 一 个 定制 的 类 Marker， 如 果 下 载 了 完整 的 源 代码 ， 我 们 就 可 以 在 com 一 
flowingdata 一 gps 一 Markeras 中 找到 它 。 它 基本 上 是 一 个 容器 ， 当 你 调用 它 的 play 〇 也 数 时 ， 
它 就 会 被 “点 亮 ”。 

现在 我 们 有 了 位 置 数据 ， 而 且 标记 符号 也 载 人 到 了 地 图 上 面 。 然 而 ， 如 果 现 在 编译 代码 并 运 
行文 件 , 我 们 依然 只 能 看 到 一 幅 空 折 的 地 图 。 下 一 步 是 循环 处 理 这 些 标记 符号 ， 让 它们 在 正确 的 
时 间 点 之 。 

playNextStore() 函数 调用 了 下 一 个 标记 符号 的 play() ， 然 后 为 再 下 一 个 作 好 准备 。 
startAnimation(7) 和 onNextYear(0) 函数 使 用 了 计时 融 来 递增 显示 每 一 个 店铺 。 

private function playNextStorete:TimerEvent):void 

{ 

















MarkerCmarkers[markerIindex]}).play(); 
markerIndext+; 


8.4 跨越 空间 和 时 间 267 





现在 再 编 详 并 运行 动画 , 我们 能 够 看 到 那些 学 点 ,但 它们 并 不 配合 地 图 一 块 进行 缩放 和 平移 ， 
如 图 8-46 所 示 。 当 我 们 左右 拖 动 或 者 放大 缩小 地 图 时 ， 那 些 绿色 的 气泡 依然 保持 静止 不 动 。 











图 8-46 ”不 能 缩放 和 平移 亮点 的 增长 地 图 
现在 往 构 造 另 数 里 添加 一 些 监 听 希 ， 以 便 在 地 网 移动 时 那些 亮点 也 会 跟着 移动 。 无 论 何 时 ， 





只 要 一 个 MapEvent 被 Modest Maps 解 发 , 一 个 在 MarkersClip.as 里 定义 的 相应 函数 就 会 被 调用 。 比 
如 下 面 的 第 一 行 代码 ， 只 要 用 户 单 击 地 图 的 缩放 按钮 ，onMapStartZooming() 就 会 被 调用 。 
this.map.addEvyentListener(MapEvent.START ZOOMING, 
onMapSstartZooming); 
this.map.addEyentListener(MapEvyent.STOP_ZQOMING, 
onMapSstopzZooming); 
this.map.addEventListener(MapEvent.zOOMED BY, onMapzoomedBy); 
this.map.addEyentListener(MapEvyent.START_PANNING, 
onMapSstartPanning); 
this.map.addEventListener(tMapEvent.STOP_PANNING, 
onMapstopPanning); 
this.map.addEventListener(MapEvent.PANNED, onMapPanned); 


这 样 我 们 就 得 到 了 最 终 的 地 图 ， 如 图 8-47 所 示 。 
沃尔玛 开店 的 故事 显示 了 一 种 有 机 的 增长 。 公司 从 一 个 地 方 开始 , 缓慢 地 向 外 扩张 很 明显 ， 
并 不 是 所 有 连锁 店 都 是 如 此 。 比 如 ， 塔 吉 特 的 发 展 看 上 去 就 没有 这 么 有 计划 性 。 好 市 多 的 发 展 不 
像 前 两 者 那样 充满 戏剧 性 ,因为 它 扩张 的 区 域 较 少 ,但 其 发 展 战略 似乎 是 先 在 沿海 地 区 站 稳 脚跟 ， 8 | 
然后 向 内 地 进军 。 
不 管 怎样 ， 这 是 一 种 非常 有 趣 的 浏览 数据 方式 。 不 停 增长 的 地 图 似乎 能 激发 人 们 的 想象 力 ， 
而 且 他 们 会 想 知道 其 他 连锁 公司 ( 例如 麦当劳 或 星巴克 ) 的 扩张 情况 。 现 在 我 们 已 经 有 了 代码 ， 
实现 这 一 点 应 该 会 容易 得 多 。 困 难 的 部 分 只 在 于 如 何 找到 数据 了 。 
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图 8-47 显示 沃尔玛 增长 情况 的 完整 可 交互 地 图 


8.5 小结 


地 图 是 一 种 有 些 环 手 的 可 视 化 类 型 ， 因 为 除了 手中 的 数据 之 外 ， 我 们 还 必须 处 理 地 理 维度 。 
但 是 , 由 于 它们 的 直观 性 , 地 图 也 能 为 我 们 市 来 丰厚 的 回报 : 一 方面 丰富 了 我 们 呈现 数据 的 形式 ， 
男 一 方面 它 也 比 静 仿 图 表 更 加 利于 我 们 深入 地 探索 数据 。 

正如 大 家 在 本 章 这 些 例 子 中 所 看 到 的 , 在 处 理 空间 数据 时 有 很 多 的 可 能 性 。 只 需要 一 些 基本 
的 技巧 ， 我们 就 可 以 可 视 化 众多 的 数据 集 ， 讲 出 各 种 有 趣 的 故事 。 以 上 只 是 冰山 一 角 而 已 。 我 的 
意思 是 ， 人 们 需要 上 大 学 、 读 人 研读 博 才 能 获得 制图 学 和 地 理学 的 学 位 ， 所 以 除了 以 上 我 们 讲 的 那 
些 之 外 ， 肯 定 还 有 很 多 可 以 发 挥 的 地 方 。 你 可 以 试 试 分 区 统计 图 ( cartogram )， 它 可 以 根据 某 种 
度量 来 确定 地 理 区 域 的 大 小 ; 也 可 以 在 Flash 里 面 添加 更 多 的 交互 行为 ; 或 者 将 地 图 与 图 表 混 合 使 
用 ， 为 数据 表现 出 更 多 的 细 和 和 探索 方 回 。 

在 线 地 图 已 经 变 得 非常 普 裔 ， 而 且 它 们 受 欢迎 的 程度 会 随 痢 浏览 磊 和 工具 的 发 展 而 继续 增 
长 。 在 我 们 的 沃尔玛 地 图 实例 中 用 到 的 是 ActionScript 和 Flash， 但 也 可 以 通过 JavaScript 来 实现 。 
选择 何 种 工具 仅仅 取决 于 我 们 目 身 的 意图 , 如 果 对 工具 没有 要 求 , 那 就 选择 你 最 得 心 应 手 的 那 一 
个 。 其 实 ， 关键 在 于 逻辑 而 非 软 件 。 语 法 可 以 改变 ,但 表现 数据 的 手法 是 一 致 的 ， 我 们 讲 故 事 的 
起 承 转 合 也 并 无 不 同 。 
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当 我 们 探索 目 己 的 数据 时 , 没 必 要 关心 太 多 讲 故 事 的 条 条 框框 ,毕竟 
我 们 自己 就 是 讲 故 事 的 人 。 不 过 , 在 使 用 图 表 来 展示 信息 时 ， 不 管 对 象 是 
一 个 人 、 数 千 人 还 是 上 百 万 人 ， 单 单一 幅 图 表 很 可 能 是 不 够 的 。 

毫 无 疑问 ,我们 希望 其 他 人 能 理解 我 们 得 出 的 结果 ,说 不 定 还 能 从 中 
发 展 出 他 们 自己 的 故事 。 但 是 , 读者 在 刚刚 拿 到 数据 时 很 难 知 道 应 该 关心 
哪些 问题 。 降 低 门 槛 是 我 们 的 责任 和 和 义务。 我 们 如 何 设计 图 表 将 直接 影响 
到 读者 如 何 理解 数据 。 
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9.1 让 目 己 作 好 准备 


我 们 只 有 充分 了 解 了 自己 车 握 的 原始 材料 , 才 有 可 能 用 数据 把 故事 讲 好 。 而 这 往往 是 设计 数 
据 图 表 时 最 容易 被 忽略 的 。 在 开始 阶段 ,的 确 很 容易 陷入 对 最 终 效 果 的 屏 避 和 痴迷 中 。 你 想 要 一 
张 看 起 来 精彩 、 尝 亮色 有 趣 的 图 表 ， 这 没什么 问题 ， 但 如 果 还 不 知 掉 要 可 视 化 什么 东西 ， 谈 这 些 
无 疑 是 痴人说梦 。 最 后 你 可 能 只 能 得 到 类 似 图 9-1 这 样 的 东西 。 你 连 数据 集中 有 什么 数据 都 不 清 
杷 ， 又 怎样 去 突出 那些 腕 点 呢 ? 








大 型 图 表 蓝 多 
这 是 所 要 说 的 东西 百分比 


青色 的 东西 洋红 色 的 东西 ] 0% 


随机 的 统计 数据 ” 另 一 个 统计 数据 ， 


44 901 


还 有 一 个 还 有 一 个 
统计 数据 统计 数据 


101 


显示 某 茶 的 图 表 


非常 怀 人 的 数字 


1,121, 455, 492 








要 人 研究 数字 和 其 中 的 度量 标准 。 找 出 它们 来 日 哪里 , 又 是 如 何 被 仿 算 的 , 还 要 检查 它们 是 盏 
合乎 津 理 。 正 是 这 些 早期 的 数据 收集 过 程 让 《纽约 时 报 》 的 图 表 变 得 如 此 优秀 。 我 们 看 到 的 只 是 
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报纸 或 者 网 站 上 的 最 终结 有 果 ， 却 不 会 感 党 到 在 动笔 绘制 之 前 所 需要 付出 的 大 量 努 力 。 很 多 时 候 ， 
仅仅 只 是 将 所 有 数据 排 好 序 所 花 的 时 间 就 要 远 远 超过 绘制 图 表 的 时 间 。 

所 以 ， 当 下 次 拿 到 一 个 数据 集 的 时 候 ， 请 试 春 不 要 立刻 就 埋头 开始 设计 。 那 是 懒 人 的 办 法 ， 
而 且 会 在 最 后 暴露 出 所 有 的 缺陷 。 最 好 还 是 花 点 时 间 了 解 你 的 数据 , 研究 这 些 数 字 的 上 下 文 背 景 。 








提示 “可视化 的 目的 就 是 传播 数据 ， 所 以 要 花 时 间 了 解 什么 才 是 你 的 图 表 的 基础 ， 否 则 你 最 终 
只 是 在 堆砌 数字 而 已 。 


把 数字 丢 到 R 里 面 检验 , 阅读 附带 的 说 明 资 料 , 以 确保 你 了 解 每 一 种 度量 指标 所 代表 的 意义 ， 
并 且 检 查 是 否 有 看 上 去 奇怪 的 地 方 。 如 打 有 ， 而 你 又 不 知道 背后 的 原因 ,那么 就 去 联系 数据 的 提 
供 者 。 人 们 通 凋 会 很 高 兴 有 人 用 到 了 他 们 发 布 的 数据 , 也 会 很 希望 能 找 出 其 中 的 错误 并 加 以 修改 。 

在 充分 了 解 了 数据 之 后 ， 束 可 以 开始 设计 图 形 了 。 我 们 可 以 打 个 比方 。 还 记得 电影 《 龙 威 
小 子 》 中 丹尼尔 刚 开始 学 习 武术 的 那 一 段 吗 ? 宫 城 先生 让 他 给 一 堆 汽 车 打 蜡 、 给 地 板 抛光 、 整 
修 人 花园 的 栅栏 ， 这 让 丹尼尔 非 第 泪 来 ， 因 为 他 觉得 做 这 些 事 情 早 无 意义 。 理 所 当然 ， 最 后 各 种 
阻挡 和 出 产 的 技巧 一 下 子 全 痢 目 然 地 涌现 、 达 到 了 心神 合 一 ， 因 为 他 其 实 一 直 都 在 练习 正确 的 
功夫 动作 。 对 于 数据 来 说 道理 也 是 一 样 的 。 尺 量 多 了 解数 据 ， 最 后 用 视觉 手段 来 讲 故 事 上 自然 就 
会 水 到 渠 成 。 如 果 你 还 没 看 过 这 部 佳作 ， 赶 紧 承 认 吧 ， 然 后 把 《 龙 威 小 子 》 加 到 你 的 Netflix 列 
表 里 面 去 。 
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作为 数据 图 表 设 计 师 , 我 们 的 任务 是 将 目 己 所 知道 的 内 容 传达 给 受众 。 受 众 一 般 都 没有 看 过 
原始 数据 ,所 以 如 果 没 有 任何 的 解释 或 提前 说 明 , 他 们 看 到 的 东西 很 可 能 和 我 们 看 到 的 完全 不 同 。 
对 此 我 的 经 验 就 是 假设 所 有 人 在 看 到 我 的 图 表 之 前 都 是 育 目 的 。 实 际 上 ， 通 过 Facebook 、Twitter 
以 及 其 他 博客 链接 每 分 至 方式 ， 我 发 现 我 的 假设 并 不 和 拭 特 别离 说 。 

例如 ， 图 9-2 是 我 制作 的 一 幅 动 画 地 图 的 截图 。 如 果 你 在 此 之 前 没 看 过 这 张 岁 ， 可 能 会 野 无 
头绪 。 而 根据 我 们 在 第 8 章 中 讲 过 的 实例 ， 你 最 好 的 猜测 可 能 是 东家 连锁 店 的 扩张 情况 。 


































































实际 上 ， 这 幅 地 图 显示 的 是 巴 拉 殉 .奥巴马 总 统 就 职 典 礼 期 间 全 世界 发 布 的 市 地 理 标 记 的 





Twitter 微 博 ， 时 间 是 美国 东部 标准 时 间 2009 年 1 月 20 日 ， 星 期 二 中 午 。 动 画 从 星期 一 早上 开始 ， 
随 着 时 间 的 推进 ， 越 来 越 多 人 起 床 ， 并 以 稳定 的 速 座 发 推 。 随 着 就职 典礼 的 临近 ,每 小 时 发 推 的 





QD《 龙 威 小 子 》 是 1984 年 出 品 的 一 部 美国 功夫 电影 。 其 侧重 点 不 在 于 武术 ， 而 是 一 个 少年 的 成 长 过 程 ， 在 上 映 后 受 
到 了 青少年 的 热烈 欢迎 ， 并 被 评 为 1984 年 的 最 佳 影片 之 一 。2010 年 出 了 重 折 版， 其 中 成 龙 也 有 出 演 。 
书 美 国 一 家 提供 电影 、 视 频 流 媒 体 服务 和 DVD 租 赁 业务 的 公司 。 一 一 编者 注 









272 第 9 章 有 目的 地 设计 





数量 开始 增长 ， 而 欧洲 人 则 在 美国 人 开始 入 睡 时 开始 有 所 行动 。 然 后 星期 二 的 早晨 来 临 卫 ， 随 春 
就 职 典礼 的 正式 开始 Twitter 突 然 爆发 ， 群 情 激 铅 显 而 匈 见 。 大 家 可 以 在 图 9-3 中 看 到 这 一 过 程 。 
如 打 我 在 图 9-2 中 加 入 这 一 上 下 文 育 景 ， 可 能 就 会 让 人 容易 理解 得 多 。 








图 9-2 ”没有 标题 和 上 和 下文 背景 的 地 图 


Twitter 上 的 总 统 就 职 日 
万 史 性 事件 时 全 球 发 推 情况 : 糙 。 


一 天 前 


11:18am. Mon. Jan 19 6:22am, Tuc, Jan 20 3:04am. Tue, Jan 20 


典礼 期 间 


1:37pm, Tue, Jan 20 8-30pm, Tuc, Jan 20 12:55pm, Wed, Jan 21 








图 9-3 巴 拉 元 奥巴马 总 统 就 职 典礼 期 间 的 Twitter 微 博 ( 为 见 彩 插图 9-3 ) 
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我 们 不 必 为 每 幅 图 表 都 配 上 一 大 段 文 子 , 但 添加 一 个 标题 和 一 小 段 引 文 加 以 解释 总 是 会 很 有 
帮助 的 。 如 果 在 图 表 中 的 某 人 处 再 提供 一 个 链接 可 能 会 更 好 , 这 样 一 来 即使 图 表 被 分 译 到 其 他 网 站 
上 ， 人 们 依然 可 以 找到 原始 出 处 ， 看 到 你 随 图 发 表 的 文章。 否则 ， 很 快 就 会 楼 成 电话 传 话 游戏 ， 
在 你 意识 到 以 前 ， 你 精心 设计 的 图 表 束 会 完全 被 人 曲解 了 。 互 联网 就 是 这 么 诡 卉 。 

再 从 一 个 例子 ， 图 9-4 中 的 图 表 是 一 个 简单 的 时 间 轴 ， 显 示 了 当代 十 大 数据 汇源 事故 。 





2000 年 以 来 的 10 太 数据 泄漏 事故 
只 杰 米 研 芭 的 全 电波 数字 化 ， 庚 扩 数据 、， 抵 而 峰 注入 供 变 得 由 玉 上 想 玫 虹 。 
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图 9-4 ”2000 年 以 来 的 主要 数据 泄漏 事故 


这 张 图 很 基础 ， 只 有 10 个 数据 点 ， 不 过 在 发 表 到 FlowingData 上 时 ， 我 提 到 从 2000 年 到 2008 
年 间 数 据 泄 漏 事故 发 生 的 频率 越 来 越 高。 这 幅 图 表 最 后 也 被 相当 多 的 人 分 享 , 甚至 其 变 体 还 登 上 
了 《和 福布斯》 杂志 ， 而 几乎 所 有 分 享 的 人 都 提 到 了 我 说 的 频率 问题 。 但 我 觉得， 如 果 我 之 前 没有 
提 到 这 一 点 的 话 ， 并 不 会 有 那么 多 人 对 这 幅 图 表 如 此 上 心 。 

这 件 事 给 我 们 上 的 一 课 是 : 不 要 假设 谈 者 知道 一 切 ， 或 者 能 从 你 的 图 表 中 发 现 所 有 细 记 。 这 
对 于 互联 网 用 户 来 说 尤其 正确 ， 因 为 网 友 们 已 经 习惯 于 点 击 前 往 下 一 处 了 。 

但 这 并 不 是 说 人 们 不 会 花 时 间 去 观察 数据 。 可 能 有 人 看 到 过 ，OkCupid 的 官方 博客 里 经 第 有 
一 些 比较 长 的 博文 ,根据 网 站 在 线 交 友 的 数据 进行 分 析 ， 然 后 将 结果 表现 出 来 。 这 些 文章 的 题目 
包括 “第 一 次 约会 时 提 什 么 问题 比较 好 ”和 “美人 与 数学 ”等 。 

该 博客 上 的 文章 被 浏览 过 上 百 万 次 ， 人 们 非常 喜欢 看 OkCupid 的 那些 家 伙 们 所 说 的 话 。 除 了 
文 草 里 面 大 量 的 上 下 文 背 景 之 外 ,来 阅读 博客 的 人 们 也 有 各 目的 上 下 文 背景 ,因为 这 是 关于 约会 、 
异性 方面 的 数据 和 发 现 ， 人 们 总 是 能 将 它们 和 目 身 的 经 验 联系 起 来 。 人 例如， 图 9-5 显 示 了 亚 毅 男 
人 通 凋 喜欢 什么 。 这 幅 图 表 来 和 目 于 OKCupid 一 篇 关于 人 们 豆 欢 什么 的 文 曹 ， 其 中 根据 人 种 和 性 别 
进行 了 分 类 。 嘿 ， 我 目 己 就 是 亚 裔 ， 而 且 我 是 男 的 。 你 看 ， 很 快 就 产生 了 联系 ， 不 是 吗 ? 

而 另 一 方面 ， 要 是 你 的 图 表 主 题 是 污染 情况 或 全 球 俩 务 ， 如 果 没 有 解释 清楚 ,那么 大 部 分 旋 
者 可 能 很 难 买 账 。 

还 有 些 时 候 , 不 管 我 们 怎样 说 明 ， 人 们 就 是 不 喜欢 在 网 上 阅 谈 ， 总 是 加 回 厨 京 。 有 一 次 ,我 在 
FloatingSheep 上 发 表 了 一 张 地 图 , 对 美国 的 杂货 铺 数量 和 酒吧 数量 进行 了 对 比 ,， 如 图 9-6 所 示 。 红 色 
表示 该 地 区 的 酒吧 比 杂 货 铺 多 , 桔 色 表示 相反 ,FloatingSheep 上 的 家 伙 们 称 之 为 “美国 的 啤酒 肚 ”。 9 
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我 十 个 癌 单 的 人 
韩国 炎 毅 新 加 坡 
襄 粉 韩国 人 
4 们 有 发 虹 各 中 普 通 二 
打 篮 球 让 本 
板 球 隅 网 经 济 等 
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工程 师 
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数码 产品 ”明星 伙 伞 
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图 9-5” 亚 商 男 人 邦 襄 欢 什 么 ， 来 日 于 OkCupid 在 线 交友 资料 
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酒吧 和 杂货 铺 : 不 同 的 颜色 代表 在 Google 地 图 上 的 某 个 具体 位 置 搜索 某 一 关键 词 得 到 的 结果 数量 更 多 。 例 
如 ， 红 色 圆 圈 表 示 在 当地 搜索 “酒吧 ”得 到 的 结果 数量 超过 了 “杂货 铺 ” 的 结果 。 数 据 收集 于 2008 年 8 月 。 


图 9-6 美国 哪些 地 方 的 酒吧 比 杂 仙 铺 数量 多 ( 为 见 彩 插图 9-6 ) 
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在 发 表 文章 的 时 候 ， 我 对 该 地 图 的 准确 性 存 有 疑问 ， 所 以 在 结尾 我 钙 这 么 号 的 :“ 有 没有 住 
在 当地 的 朋友 还 足够 清醒 ? 带 我 确认 一 下 你 们 那里 是 不 是 这 样 吧 。 我 猜 你 们 的 评论 里 错别字 肯定 
不 少 ， 而 且 话 都 说 不 清 ， 其 至 满口 酒 气 呢 。” 那 么 我 得 到 了 什么 教训 呢 ? 在 网 上 ， 冷 幽默 和 挖 百 
往往 很 难得 到 正确 解读 , 更 何况 大 部 分 人 根本 就 懒得 通读 你 写 的 文 草 。 实际 上 我 根本 不 认为 日 己 
会 看 到 满口 酒 气 的 评论 。 很 多 人 知道 我 是 在 开玩笑 , 但 还 是 有 不 少 人 感到 受 了 冒犯 。 正如 我 所 说 
的 ， 互 联网 就 是 这 么 有 趣 。 
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在 第 1 草 中 ， 我 们 看 到 了 “编码 ”是 如 何 生 将 的 。 简 单 来 说 ， 我 们 手 上 有 数据 ， 而 这 些 数 据 
被 根据 几何 、 色 彩 或 动画 原理 进行 了 编码 。 然 后 该 者 对 这 些 形状 、 颜 色 和 运动 进行 解码 ,将 它们 
重新 映射 为 数字 。 这 就 是 可 视 化 的 基础 。 编 码 是 一 种 锅 党 上 的 翻 详 过 程 。 而 解码 则 能 帮助 我 们 从 
不 同 的 视角 观察 数据 ， 并 且 从 中 找 出 变化 的 模式 。 而 这 种 模式 用 表格 是 无 法 体现 的 。 

这 种 编码 一 般 部 比较 简单 易 履 ， 因 为 它们 如 循 的 是 数学 规则 。 较 长 的 柱 形 代 表 较 局 的 数值 ， 
面积 较 小 的 圆 形 代表 较 低 的 数值 ， 等 等 。 虽然 在 这 一 过 程 中 会 由 计算 机 作出 很 多 决定 , 但 是 针对 
手中 的 数据 集 选 择 何 种 合适 的 编码 方式 ， 这 一 日 主权 依然 车 握 在 我 们 日 己 手 上 。 

通过 前 面 革 市 中 的 所 有 实例 , 我 们 发 现 好 的 设计 不 仅 体现 出 了 美学 的 价值 ,而且 还 能 让 图 表 
更 加 多 于 阅读 , 甚至 还 能 影响 该 者 对 数据 或 故事 产生 的 感 党 。 由 了 R 或 Excel 稚 认 产 生 的 图 表 看 上 去 
非常 原始 和 机 械 , 但 这 也 不 一 定 是 坏事 。 也 许 对 于 学 术 报 告 来 说 这 就 已 经 足够 了 。 或 者 说 ， 如 末 
文章 主 体 更 加 重要 ,而 图 表 只 是 对 其 的 一 种 补充 , 那么 最 好 不 要 让 图 表 喧 宾 和 村主 , 分 散 读 者 的 注 
意 力 。 图 9-7 就 显示 了 一 种 极为 朴 系 的 柱 形 图 。 









































图 9-7 朴 双 的 柱 形 图 








但 是 ， 如 果 你 希望 让 图 表 更 加 吸引 有 眼球， 简单 地 改 一 下 颜色 就 能 收 到 不 错 的 效果 。 在 图 9-7 
的 基础 上 仅仅 调整 了 背景 色 和 前 景色 就 得 到 了 图 9-8。 
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图 9-8 ”暗色 主题 的 默认 图 表 


较 暗 的 配色 方案 可 能 适用 于 较 严 肃 的 主题 ， 而 明亮 的 配色 方案 ( 如 柠檬 黄 ) 则 能 让 人 感到 更 
加 愉快 、 无 忧 无 虑 ( 见 图 9-9 )。 





图 9-9 亮色 主题 的 默认 图 表 


当然 ， 我 们 并 不 总 是 需要 鲜明 的 配色 方案 。 如 采 愿 意 ， 你 大 可 以 使 用 中 性 的 配色 ， 如 图 9-10 
所 未 。 





图 9-10 ”中 性 配色 的 默认 图 表 
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关键 是 ,颜色 的 选择 在 数据 图 表 中 可 以 扮演 重要 的 角色 。 它 可 以 调动 (或 者 不 调动 ) 读者 的 
情绪 ， 还 有 助 于 提供 上 下 文 育 景 。 选 择 合适 的 颜色 来 传达 准确 的 信息 是 我 们 的 责任 ,色彩 应 该 与 
所 讲 的 故事 相 搭 配 。 就 像 在 图 9-11 中 显示 的 ， 人 简单 的 颜色 变化 可 能 会 完全 改变 数据 的 含义 。 这 幅 
图 表 来 自 于 设计 师 David McCandless 和 二 人 设计 组 合 Always With Honor， 它 探索 了 不 同文 化 中 色 
彩 的 音义。 比如 说 ,黑色 和 白色 在 大 部 分 文化 中 都 用 于 表现 死亡 ， 而 在 凋 美 文化 中 ， 则 通常 用 绿 
色 来 表现 这 一 主题 。 

















文化 中 的 颜色 


西方 人 /美国 人 
日 本 人 


Davig McCandless & AlwaysWitnHonor.com // v0 // Apr 03 // InformationlsBeautifulnet Source: Pantone. ColorMatlers & web sources 





图 9-11 由 David McCandless 和 Always With Honor 设 计 的 “文化 中 的 颜色 ” ( 另 见 彩 择 图 9-11 ) 


与 颜色 相似 ， 我 们 也 可 以 通过 修改 几何 形状 来 得 到 不 同 的 外 观 、 感 党 和 人 含义。 例如， 图 9-12 
显示 了 一 个 随机 生成 的 堆 基 柱 形 图 ， 使 用 的 工具 是 可 视 化 学 者 Mike Bostock 开 发 的 Data-Driven 
Documents"。 图 形 有 平 直 的 边缘 、 明 显 的 数据 点 ， 以 及 加 上 波峰 和 波 谷 。 


GD Data-Driven Documents 又 称 为 “D3”， 它 是 一 个 JavaScript 库 ， 通 过 HTML 、SVG 和 CSS 来 绘制 图 表 。 网 站 为 9 
http://d3]s.org。 
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图 9-12 ”随机 生成 的 堆 竺 柱 形 图 


如 采用 流 线 图 〈streamgraph ) 来 显示 相似 的 数据 ， 我 们 就 会 得 到 完全 不 同 的 感觉 ， 如 图 9-13 
所 示 。 图 形 更 加 连贯 而 律动 ， 而 且 不 再 有 波峰 和 波 谷 ， 取 而 代 之 的 是 收缩 和 膨胀 。 尽 管 如 此 ， 这 
两 种 图 表 所 用 的 几何 原理 是 相似 的 。 流 线 图 可 以 看 作 是 更 加 平滑 的 堆 释 柱 形 图 ,其 水 平 轴 在 中 间 
而 不 是 位 于 底部 。 





图 9-13 ”随机 生成 的 流 线 图 


了 > 请 查阅 Lee Byron 和 Martin Wattenberg 的 论文 “Stacked Graphs 一 Geometry and Aesthetics” 
( 堆 且 图 表 一 一 几何 与 美学 ) ， 了 解 更 多 流 线 图 的 信息 。 有 一 些 工具 包 可 以 让 我 们 自己 设计 


流 线 图 ， 例 如 Protovis 和 D3。 





有 时 候 在 我 们 组 织 形 状 和 颜色 的 过 程 中 ， 上下文 背景 自然 而 然 就 会 显现 出 来 。 图 9-14 是 一 幅 
我 创作 来 庆祝 市 日 的 图 表 。 上 半 部 分 显示 浸泡 火 鸡 时 需要 的 原材料 ,下 尘 部 分 则 是 在 送 入 烤箱 
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前 需要 填 和 人 火 鸡 肚子 的 东西 。 
圣诞 节 火 鸡 


时 间 + 杀 情 





原材料 : 
一 1 加 仑 蔬菜 高 汤 
1 杯 犹太 盐 
“1/2 杯 红糖 


se 112 茶匙 多 香 果 
…… 1 1/2 茶匙 碎 姜 糖 


1 加 仓 冰 水 


将 火 鸡 浸泡 8~16 小 时 


火 鸡 内 的 香料 往 火 鸡 内 填 入 : 


1 个 红 苹果 
1/2 个 洋葱 


500°F (260°C) 烘 烤 30 分 钟 。 
降 至 350°F (177°*C) 烘 烤 约 2 小 时 。 








图 9-14 ”圣诞 节 火 鸡 荣 谱 
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归根 结 砍 ， 从 最 本 质 的 层面 来 说 ,可视化 就 是 将 数据 ( 可 以 十 数字 、 文 本 、 类 别 或 任何 其 他 
东西 ) 转换 为 视觉 元素。 有 一 些 视 党 元 系 比 其 他 元 素 更 具 提 示 性 ， 但 不 一 定 适 用 于 所 有 数据 集 。 
对 菏 种 数据 集 完 全 不 适用 的 方法 ， 对 万 一 种 效 据 集 来 说 可 能 是 黄金 搭配 。 通 过 不 断 的 实践 ,我 们 
很 快 束 能 找到 最 适合 当前 设计 意图 的 可 视 化 方法 。 


9.4 ”好 的 可 视 化 


尽管 数 个 世纪 以 来 人 们 一 下 在 绘制 图 纸 和 图 表 , 但 只 在 过 去 几 十 年 里 研究 人 员 才 开始 分 析 哪 
些 图 表 有 效 、 哪 些 图 表 无 效 。 从 这 个 角度 来 说 ,可视化 仍然 属于 一 个 轩 新 的 领域 。 对 于 可 视 化 究 
苋 是 什么 , 业界 目前 仍 未 达成 共识 。 可 视 化 是 否 等 同 于 计算 机 根据 一 些 规 则 生成 的 绪 末 ? 如 宁 有 
人 在 设计 过 程 中 进行 了 人 工 干 预 , 是 否 就 表示 它 不 再 是 可 视 化 作品 ”信息 图 到 帮 属 于 可 视 化 范畴 









































在 网 上 我 们 可 以 找到 许多 有 关 信 息 图 和 可 视 化 之 间 异 同 的 讨论 , 以 及 各 种 各 样 试 图 定义 可 视 
化 的 论述 。 这 些 讨 论 往 往 流 于 无 休止 的 来 回 反复 ,， 却 得 不 出 任何 结果 。 这 些 互 左 的 意见 导致 对 数 
据 图 表 的 优 劣 评判 标准 也 参差 不 齐 。 

比如 说 , 统计 员 和 分 析 员 普 裔 认为 可 视 化 就 是 他 们 在 分 析 中 用 到 的 传统 静态 图 表 。 如 果 该 图 
表 或 者 交互 作品 无 助 于 分 析 工 作 , 那么 就 量 无 价值 , 是 失败 的 。 而 另 一 方面 ， 如 采 和 一 位 图 形 议 
计 师 讨论 同一 幅 图 表 ， 他 们 可 能 会 认为 它 是 成 功 的 ， 因为 它 突 出 了 令 人 感 兴趣 的 数据 ， 而 且 表 现 
的 方式 非常 迷人 。 

我 们 所 需要 做 的 就 是 把 这 些 观点 整合 到 一 起 , 至 少 也 应 该 尽量 综合 考虑 。 分 析 型 头脑 的 人 可 
以 从 设计 师 那 里 学 到 如 何 让 数据 更 具有 叙述 性 、 更 便于 人 们 理解 ,而 设计 型 头脑 的 人 可 以 学 到 如 
何 像 分 析 员 那样 更 次 入 地 挖掘 数据 。 

我 不 会 去 定义 可 视 化 是 什么 , 因为 这 种 定义 不 会 影响 我 的 工作 方式 。 我 会 考虑 我 的 受众 群体 
以 及 面前 的 数据 ， 然 后 自问 最 终 的 设计 是 否 能 达到 要 求 。 如 果 能 ， 那 很 好 ; 如 果 不 能 ， 我 就 会 回 
头 重 新 画 章 图 ， 思 考 如何 才 能 进一步 优化 ， 让 图 表 回 答 出 我 对 数据 产生 的 那些 问题 。 总 而 言 之 ， 
重点 在 于 你 设计 图 表 的 目的 是 什么 , 你 想 讲 什么 样 的 故事 ,以 及 你 打算 跟 谁 讲 。 将 上 述 所 有 内 容 
都 考虑 进来 ， 你 就 能 成 功 。 

















9.5 ”小结 


很 多 与 数据 打交道 的 人 认为 设计 只 是 一 种 让 图 表 更 加 好 看 的 手段 。 这 话 并 不 错 , 但 设计 还 能 
够 让 我 们 的 图 表 更 加 易于 阅读 、 理 解 和 使 用 。 与 默认 和 后 成 的 原始 图 表 相 比 , 经 过 设计 的 图 表 可 以 
带 助人 们 更 好 地 理解 数据 。 我 们 可 以 让 网 表 不 再 杂乱 ， 突 出 数据 中 的 重要 内 容 ， 甚 至 还 可 以 唤起 
读者 的 情感 共鸣 。 数 据 图 表 也 可 以 娱乐 大 众 ， 既 丰 宦 多 彩 又 包罗 万 象 。 有 时 候 它 可 能 就 只 是 为 了 
娱乐 而 已 ,这 取决 于 你 日 映 的 意图 , 但 不 省 是 何 种 作品 (可视化 也 好 , 信息 图 也 好 ， 数 据 艺 术 品 
也 好 )， 还 是 得 让 数据 来 引导 你 的 设计 。 
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如 打 你 手 上 的 数据 集 非 第 庞大 ， 而 且 你 不 知道 如 何 着 手 , 那么 最 好 就 是 以 一 个 问题 开始 。 你 
希 户 从 中 了 解 什么 ?你 是 否 在 找 周期 性 的 模式 ? 或 者 多 个 变量 之 则 的 联系 ?异常 值 ? 空间 关 
系 ? 然后 再 回头 观察 数据 ,看 看 是 否 能 回答 刚才 的 问题 。 如 果 没 有 你 需要 的 数据 ,那么 就 去 再 找 
= 

在 有 了 数据 之 后 ,你 就 可 以 运用 从 本 书 中 学 到 的 拉 巧 来 讲 有 趣 的 故事 了 。 不 过 ,这 还 不 是 终 
点 。 将 你 现在 的 所 有 设计 产 出 看 作 是 基础 ， 然 后 再 度 挖掘。 所 有 我 们 喜欢 的 数据 图 表 的 核心 神 是 
一 样 的 : 菏 个 数据 类 型 再 加 上 某 种 可 视 化 方法 你 现在 已 经 知道 这 些 方 法 的 原理 了 )。 你 可 以 
根据 这 些 已 有 的 系 材 尝试 更 局 级 、 更 复杂 的 图 表 。 加 入 交互 行为 , 混合 多 种 图 表 , 或 者 补充 一 些 
照片 和 文字 以 提供 更 多 的 上 下 文 背景 。 

请 记 住 , 数据 只 是 对 真实 生活 的 一 种 表现 。 当 我 们 在 可 视 化 数据 时 ,其实 是 在 可 视 化 我 们 号 
边 以 及 这 个 世界 上 正在 发 生 些 什么 。 我 们 的 观察 范围 可 以 从 微小 的 个 体 到 广 亡 的 宇宙 。 仔 细 研 究 
数据 ,我 们 就 能 讲 出 大 多 数 人 从 不 知晓 、 但 却 淘 望 听 到 的 故事 。 如 今 我 们 这 个 世界 上 的 数据 比 以 
往 任何 时 候 部 要 丰 宦 ,而 且 人 们 希望 了 解 它们 背后 强 涵 的 信息 。 现 在 你 可 以 告诉 他 们 了 。 祝 你 玩 
得 开心 。 
































(过) 延伸 阅读 Cs 


( 即将 出 版 ) 


看 得 见 的 信息 
[日 ] 木村 博之 车 


信息 图 学 的 力量 : 巧 用 图 形 与 人 沟通 
[加 ] Mark Smiciklas 著 


信息 架构 用 户 体 验 设计 
[日 ] 长 谷川 敦 士 著 


